Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints-v4.1-discrete-conditional/checkpoint-1792/eval_state.json +0 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/model.safetensors +3 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/optimizer.pt +3 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/rng_state.pth +3 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/scaler.pt +3 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/scheduler.pt +3 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/trainer_state.json +265 -0
checkpoints-v4.1-discrete-conditional/checkpoint-1792/training_args.bin +3 -0

checkpoints-v4.1-discrete-conditional/checkpoint-1792/eval_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints-v4.1-discrete-conditional/checkpoint-1792/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fed2509dff585539fb2a1d77839df6c78d36a2083d34eae519057c444be78102
+size 24391688

checkpoints-v4.1-discrete-conditional/checkpoint-1792/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7bffd4123f8189559f8a0b76d997a9de9894a398e8462f935a31b0f8959cfcc1
+size 762635

checkpoints-v4.1-discrete-conditional/checkpoint-1792/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b717c1ad3cde0191a1a66b46199c309efa6f1cfe69c4facb92560e3f24a3881
+size 14645

checkpoints-v4.1-discrete-conditional/checkpoint-1792/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a42e33465160c5ace903c63375f0694cfab8943854b6c37c46848f754e8871c0
+size 1383

checkpoints-v4.1-discrete-conditional/checkpoint-1792/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:970abb983a5a0197c365bc7fdfdc8155569e58b62f56513c3b9d937587189b2d
+size 1465

checkpoints-v4.1-discrete-conditional/checkpoint-1792/trainer_state.json ADDED Viewed

	@@ -0,0 +1,265 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.8849382716049383,
+  "eval_steps": 256,
+  "global_step": 1792,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06320987654320988,
+      "grad_norm": 0.04219071567058563,
+      "learning_rate": 0.000248046875,
+      "loss": 0.006440815050154924,
+      "step": 128
+    },
+    {
+      "epoch": 0.12641975308641976,
+      "grad_norm": 0.04216855764389038,
+      "learning_rate": 0.000498046875,
+      "loss": 0.006011463236063719,
+      "step": 256
+    },
+    {
+      "epoch": 0.12641975308641976,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.005870252109428004,
+      "eval_loss": 0.005870252109428004,
+      "eval_mse_loss": 443.6981372368045,
+      "step": 256
+    },
+    {
+      "epoch": 0.12641975308641976,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.005870252109428004,
+      "eval_loss": 0.005870252109428004,
+      "eval_mse_loss": 443.6981372368045,
+      "eval_runtime": 8.5982,
+      "eval_samples_per_second": 304.482,
+      "eval_steps_per_second": 4.768,
+      "step": 256
+    },
+    {
+      "epoch": 0.18962962962962962,
+      "grad_norm": 0.04382074996829033,
+      "learning_rate": 0.000748046875,
+      "loss": 0.005682823713868856,
+      "step": 384
+    },
+    {
+      "epoch": 0.2528395061728395,
+      "grad_norm": 0.04206819832324982,
+      "learning_rate": 0.000998046875,
+      "loss": 0.005469319876283407,
+      "step": 512
+    },
+    {
+      "epoch": 0.2528395061728395,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.005397265197754633,
+      "eval_loss": 0.005397265197754633,
+      "eval_mse_loss": 463.40619789681784,
+      "step": 512
+    },
+    {
+      "epoch": 0.2528395061728395,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.005397265197754633,
+      "eval_loss": 0.005397265197754633,
+      "eval_mse_loss": 463.40619789681784,
+      "eval_runtime": 7.4659,
+      "eval_samples_per_second": 350.662,
+      "eval_steps_per_second": 5.492,
+      "step": 512
+    },
+    {
+      "epoch": 0.3160493827160494,
+      "grad_norm": 0.040812306106090546,
+      "learning_rate": 0.0009827157247249464,
+      "loss": 0.005451996345072985,
+      "step": 640
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "grad_norm": 0.05150594562292099,
+      "learning_rate": 0.0009315344337660421,
+      "loss": 0.005260218400508165,
+      "step": 768
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.005222608051376372,
+      "eval_loss": 0.005222608051376372,
+      "eval_mse_loss": 478.69413199075836,
+      "step": 768
+    },
+    {
+      "epoch": 0.37925925925925924,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.005222608051376372,
+      "eval_loss": 0.005222608051376372,
+      "eval_mse_loss": 478.69413199075836,
+      "eval_runtime": 8.0676,
+      "eval_samples_per_second": 324.508,
+      "eval_steps_per_second": 5.082,
+      "step": 768
+    },
+    {
+      "epoch": 0.44246913580246916,
+      "grad_norm": 0.0297068003565073,
+      "learning_rate": 0.0008500491898731988,
+      "loss": 0.005236003547906876,
+      "step": 896
+    },
+    {
+      "epoch": 0.505679012345679,
+      "grad_norm": 0.03605964779853821,
+      "learning_rate": 0.0007439821899385376,
+      "loss": 0.005152056459337473,
+      "step": 1024
+    },
+    {
+      "epoch": 0.505679012345679,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.005151342339359406,
+      "eval_loss": 0.005151342339359406,
+      "eval_mse_loss": 487.98453800852707,
+      "step": 1024
+    },
+    {
+      "epoch": 0.505679012345679,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.005151342339359406,
+      "eval_loss": 0.005151342339359406,
+      "eval_mse_loss": 487.98453800852707,
+      "eval_runtime": 8.1175,
+      "eval_samples_per_second": 322.512,
+      "eval_steps_per_second": 5.051,
+      "step": 1024
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": 0.03870987519621849,
+      "learning_rate": 0.0006207818531897271,
+      "loss": 0.005106513388454914,
+      "step": 1152
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "grad_norm": 0.024118751287460327,
+      "learning_rate": 0.0004890997654891032,
+      "loss": 0.005096105858683586,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.005091924810918366,
+      "eval_loss": 0.005091924810918366,
+      "eval_mse_loss": 497.0737781059451,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6320987654320988,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.005091924810918366,
+      "eval_loss": 0.005091924810918366,
+      "eval_mse_loss": 497.0737781059451,
+      "eval_runtime": 8.4448,
+      "eval_samples_per_second": 310.013,
+      "eval_steps_per_second": 4.855,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6953086419753086,
+      "grad_norm": 0.02920917421579361,
+      "learning_rate": 0.00035818313279679524,
+      "loss": 0.005061750765889883,
+      "step": 1408
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "grad_norm": 0.018508030101656914,
+      "learning_rate": 0.00023722540797531234,
+      "loss": 0.005014664493501186,
+      "step": 1536
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.00502042164571765,
+      "eval_loss": 0.00502042164571765,
+      "eval_mse_loss": 502.0919985887481,
+      "step": 1536
+    },
+    {
+      "epoch": 0.7585185185185185,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.00502042164571765,
+      "eval_loss": 0.00502042164571765,
+      "eval_mse_loss": 502.0919985887481,
+      "eval_runtime": 7.5012,
+      "eval_samples_per_second": 349.012,
+      "eval_steps_per_second": 5.466,
+      "step": 1536
+    },
+    {
+      "epoch": 0.8217283950617283,
+      "grad_norm": 0.020617935806512833,
+      "learning_rate": 0.00013472069233656453,
+      "loss": 0.004991861991584301,
+      "step": 1664
+    },
+    {
+      "epoch": 0.8849382716049383,
+      "grad_norm": 0.016280537471175194,
+      "learning_rate": 5.786724825584927e-05,
+      "loss": 0.004958455916494131,
+      "step": 1792
+    },
+    {
+      "epoch": 0.8849382716049383,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.0049657613470605235,
+      "eval_loss": 0.0049657613470605235,
+      "eval_mse_loss": 505.7769038502763,
+      "step": 1792
+    },
+    {
+      "epoch": 0.8849382716049383,
+      "eval_bleu": 0.0,
+      "eval_cos_loss": 0.0049657613470605235,
+      "eval_loss": 0.0049657613470605235,
+      "eval_mse_loss": 505.7769038502763,
+      "eval_runtime": 8.1016,
+      "eval_samples_per_second": 323.148,
+      "eval_steps_per_second": 5.061,
+      "step": 1792
+    }
+  ],
+  "logging_steps": 128,
+  "max_steps": 2025,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 256,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v4.1-discrete-conditional/checkpoint-1792/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0839bffbc58eb6068cc228e4d756dbb22a9adf723766e40a7bc2a03aca92630
+size 5137