Training in progress, step 2750, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e6e64cd0f65a1b2b00c95c82731ef88ea000d66c62bf6137f7e1a473aacf8ef
 size 1370666272

 version https://git-lfs.github.com/spec/v1
+oid sha256:45a6dc7811d0780d24458a5c92ede92e93f2f4528983f11ed322dff31c53b943
 size 1370666272

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e437bdbea15b052c2946672282387fce8ebaa3eec7db8105928623b5d6c489b
 size 697294462

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb00e6d73ff026c0ba65053478c15df649da25fa90ee6e337c488730339ed699
 size 697294462

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b35ab382e0f59869aa7c89a602bbec3425d3ead1f6c99394c8d4c3ad9639e0d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:790e3eb032b3621396d9aae2e147bc1026c5e0e652ee7a1b6ebb9eb3f2b37b4b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6398104265402843,
   "eval_steps": 500,
-  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -18907,6 +18907,356 @@
       "learning_rate": 1.4419552353869964e-05,
       "loss": 1.6192,
       "step": 2700
     }
   ],
   "logging_steps": 1,
@@ -18926,7 +19276,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1984671340494848e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6516587677725119,
   "eval_steps": 500,
+  "global_step": 2750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.4419552353869964e-05,
       "loss": 1.6192,
       "step": 2700
+    },
+    {
+      "epoch": 0.6400473933649289,
+      "grad_norm": 0.7438738942146301,
+      "learning_rate": 1.4402692901787481e-05,
+      "loss": 1.6959,
+      "step": 2701
+    },
+    {
+      "epoch": 0.6402843601895735,
+      "grad_norm": 0.7854204773902893,
+      "learning_rate": 1.4385839322844863e-05,
+      "loss": 1.6625,
+      "step": 2702
+    },
+    {
+      "epoch": 0.640521327014218,
+      "grad_norm": 0.9514130353927612,
+      "learning_rate": 1.436899162638255e-05,
+      "loss": 1.6547,
+      "step": 2703
+    },
+    {
+      "epoch": 0.6407582938388625,
+      "grad_norm": 0.8762110471725464,
+      "learning_rate": 1.4352149821737692e-05,
+      "loss": 1.5567,
+      "step": 2704
+    },
+    {
+      "epoch": 0.6409952606635071,
+      "grad_norm": 0.8398658633232117,
+      "learning_rate": 1.4335313918244209e-05,
+      "loss": 1.7205,
+      "step": 2705
+    },
+    {
+      "epoch": 0.6412322274881517,
+      "grad_norm": 0.9590023756027222,
+      "learning_rate": 1.4318483925232734e-05,
+      "loss": 1.5485,
+      "step": 2706
+    },
+    {
+      "epoch": 0.6414691943127963,
+      "grad_norm": 0.9123085737228394,
+      "learning_rate": 1.4301659852030642e-05,
+      "loss": 1.5367,
+      "step": 2707
+    },
+    {
+      "epoch": 0.6417061611374407,
+      "grad_norm": 0.8524888753890991,
+      "learning_rate": 1.4284841707961989e-05,
+      "loss": 1.5718,
+      "step": 2708
+    },
+    {
+      "epoch": 0.6419431279620853,
+      "grad_norm": 0.7618995308876038,
+      "learning_rate": 1.426802950234758e-05,
+      "loss": 1.6583,
+      "step": 2709
+    },
+    {
+      "epoch": 0.6421800947867299,
+      "grad_norm": 0.8648304343223572,
+      "learning_rate": 1.4251223244504918e-05,
+      "loss": 1.5905,
+      "step": 2710
+    },
+    {
+      "epoch": 0.6424170616113745,
+      "grad_norm": 0.9064821004867554,
+      "learning_rate": 1.4234422943748207e-05,
+      "loss": 1.6898,
+      "step": 2711
+    },
+    {
+      "epoch": 0.6426540284360189,
+      "grad_norm": 0.8449388742446899,
+      "learning_rate": 1.4217628609388356e-05,
+      "loss": 1.6486,
+      "step": 2712
+    },
+    {
+      "epoch": 0.6428909952606635,
+      "grad_norm": 0.9291089773178101,
+      "learning_rate": 1.4200840250732956e-05,
+      "loss": 1.6963,
+      "step": 2713
+    },
+    {
+      "epoch": 0.6431279620853081,
+      "grad_norm": 0.9232550859451294,
+      "learning_rate": 1.4184057877086299e-05,
+      "loss": 1.6709,
+      "step": 2714
+    },
+    {
+      "epoch": 0.6433649289099526,
+      "grad_norm": 1.0231064558029175,
+      "learning_rate": 1.4167281497749362e-05,
+      "loss": 1.5898,
+      "step": 2715
+    },
+    {
+      "epoch": 0.6436018957345971,
+      "grad_norm": 0.9170055985450745,
+      "learning_rate": 1.4150511122019771e-05,
+      "loss": 1.5688,
+      "step": 2716
+    },
+    {
+      "epoch": 0.6438388625592417,
+      "grad_norm": 0.8643277287483215,
+      "learning_rate": 1.4133746759191862e-05,
+      "loss": 1.6283,
+      "step": 2717
+    },
+    {
+      "epoch": 0.6440758293838863,
+      "grad_norm": 0.8216496706008911,
+      "learning_rate": 1.4116988418556626e-05,
+      "loss": 1.6397,
+      "step": 2718
+    },
+    {
+      "epoch": 0.6443127962085308,
+      "grad_norm": 0.8264020085334778,
+      "learning_rate": 1.4100236109401694e-05,
+      "loss": 1.5473,
+      "step": 2719
+    },
+    {
+      "epoch": 0.6445497630331753,
+      "grad_norm": 0.9171279072761536,
+      "learning_rate": 1.4083489841011383e-05,
+      "loss": 1.5799,
+      "step": 2720
+    },
+    {
+      "epoch": 0.6447867298578199,
+      "grad_norm": 0.8693802952766418,
+      "learning_rate": 1.4066749622666655e-05,
+      "loss": 1.565,
+      "step": 2721
+    },
+    {
+      "epoch": 0.6450236966824645,
+      "grad_norm": 0.845255970954895,
+      "learning_rate": 1.4050015463645127e-05,
+      "loss": 1.5896,
+      "step": 2722
+    },
+    {
+      "epoch": 0.645260663507109,
+      "grad_norm": 0.9638903141021729,
+      "learning_rate": 1.4033287373221022e-05,
+      "loss": 1.6578,
+      "step": 2723
+    },
+    {
+      "epoch": 0.6454976303317536,
+      "grad_norm": 0.8678495287895203,
+      "learning_rate": 1.401656536066524e-05,
+      "loss": 1.5692,
+      "step": 2724
+    },
+    {
+      "epoch": 0.6457345971563981,
+      "grad_norm": 0.8614510297775269,
+      "learning_rate": 1.3999849435245293e-05,
+      "loss": 1.5025,
+      "step": 2725
+    },
+    {
+      "epoch": 0.6459715639810426,
+      "grad_norm": 0.8298974633216858,
+      "learning_rate": 1.3983139606225338e-05,
+      "loss": 1.5499,
+      "step": 2726
+    },
+    {
+      "epoch": 0.6462085308056872,
+      "grad_norm": 0.8978272676467896,
+      "learning_rate": 1.3966435882866118e-05,
+      "loss": 1.6624,
+      "step": 2727
+    },
+    {
+      "epoch": 0.6464454976303318,
+      "grad_norm": 0.8641113638877869,
+      "learning_rate": 1.3949738274425023e-05,
+      "loss": 1.6375,
+      "step": 2728
+    },
+    {
+      "epoch": 0.6466824644549763,
+      "grad_norm": 0.8167167901992798,
+      "learning_rate": 1.3933046790156056e-05,
+      "loss": 1.5251,
+      "step": 2729
+    },
+    {
+      "epoch": 0.6469194312796208,
+      "grad_norm": 0.8559361696243286,
+      "learning_rate": 1.3916361439309792e-05,
+      "loss": 1.5547,
+      "step": 2730
+    },
+    {
+      "epoch": 0.6471563981042654,
+      "grad_norm": 0.8385886549949646,
+      "learning_rate": 1.3899682231133437e-05,
+      "loss": 1.5326,
+      "step": 2731
+    },
+    {
+      "epoch": 0.64739336492891,
+      "grad_norm": 0.8604897260665894,
+      "learning_rate": 1.3883009174870793e-05,
+      "loss": 1.5613,
+      "step": 2732
+    },
+    {
+      "epoch": 0.6476303317535546,
+      "grad_norm": 0.7844538688659668,
+      "learning_rate": 1.386634227976224e-05,
+      "loss": 1.5588,
+      "step": 2733
+    },
+    {
+      "epoch": 0.647867298578199,
+      "grad_norm": 0.8636563420295715,
+      "learning_rate": 1.3849681555044744e-05,
+      "loss": 1.7389,
+      "step": 2734
+    },
+    {
+      "epoch": 0.6481042654028436,
+      "grad_norm": 0.8014503717422485,
+      "learning_rate": 1.383302700995186e-05,
+      "loss": 1.5395,
+      "step": 2735
+    },
+    {
+      "epoch": 0.6483412322274882,
+      "grad_norm": 0.8970300555229187,
+      "learning_rate": 1.3816378653713713e-05,
+      "loss": 1.5465,
+      "step": 2736
+    },
+    {
+      "epoch": 0.6485781990521327,
+      "grad_norm": 0.8757097721099854,
+      "learning_rate": 1.3799736495557003e-05,
+      "loss": 1.5238,
+      "step": 2737
+    },
+    {
+      "epoch": 0.6488151658767772,
+      "grad_norm": 1.0647528171539307,
+      "learning_rate": 1.378310054470498e-05,
+      "loss": 1.6296,
+      "step": 2738
+    },
+    {
+      "epoch": 0.6490521327014218,
+      "grad_norm": 0.7840937376022339,
+      "learning_rate": 1.3766470810377468e-05,
+      "loss": 1.6038,
+      "step": 2739
+    },
+    {
+      "epoch": 0.6492890995260664,
+      "grad_norm": 0.8857571482658386,
+      "learning_rate": 1.374984730179085e-05,
+      "loss": 1.5821,
+      "step": 2740
+    },
+    {
+      "epoch": 0.6495260663507109,
+      "grad_norm": 0.9384831786155701,
+      "learning_rate": 1.3733230028158034e-05,
+      "loss": 1.6555,
+      "step": 2741
+    },
+    {
+      "epoch": 0.6497630331753554,
+      "grad_norm": 0.9250389337539673,
+      "learning_rate": 1.3716618998688502e-05,
+      "loss": 1.6025,
+      "step": 2742
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.8577538132667542,
+      "learning_rate": 1.3700014222588255e-05,
+      "loss": 1.5963,
+      "step": 2743
+    },
+    {
+      "epoch": 0.6502369668246446,
+      "grad_norm": 0.8080734014511108,
+      "learning_rate": 1.3683415709059852e-05,
+      "loss": 1.6265,
+      "step": 2744
+    },
+    {
+      "epoch": 0.6504739336492891,
+      "grad_norm": 1.0959298610687256,
+      "learning_rate": 1.3666823467302341e-05,
+      "loss": 1.54,
+      "step": 2745
+    },
+    {
+      "epoch": 0.6507109004739337,
+      "grad_norm": 0.7990492582321167,
+      "learning_rate": 1.3650237506511331e-05,
+      "loss": 1.5411,
+      "step": 2746
+    },
+    {
+      "epoch": 0.6509478672985782,
+      "grad_norm": 0.886177122592926,
+      "learning_rate": 1.3633657835878938e-05,
+      "loss": 1.7162,
+      "step": 2747
+    },
+    {
+      "epoch": 0.6511848341232227,
+      "grad_norm": 0.885360598564148,
+      "learning_rate": 1.3617084464593799e-05,
+      "loss": 1.597,
+      "step": 2748
+    },
+    {
+      "epoch": 0.6514218009478673,
+      "grad_norm": 1.0608346462249756,
+      "learning_rate": 1.3600517401841029e-05,
+      "loss": 1.6312,
+      "step": 2749
+    },
+    {
+      "epoch": 0.6516587677725119,
+      "grad_norm": 0.7951533198356628,
+      "learning_rate": 1.3583956656802289e-05,
+      "loss": 1.5896,
+      "step": 2750
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.220660969865216e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null