{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9998981773750127,
  "eval_steps": 500,
  "global_step": 2455,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004072904999490887,
      "grad_norm": 0.7094523906707764,
      "learning_rate": 2.702702702702703e-05,
      "loss": 1.8961,
      "mean_token_accuracy": 0.5438283555209636,
      "step": 10
    },
    {
      "epoch": 0.008145809998981774,
      "grad_norm": 0.4965726137161255,
      "learning_rate": 5.405405405405406e-05,
      "loss": 2.0135,
      "mean_token_accuracy": 0.5206024497747421,
      "step": 20
    },
    {
      "epoch": 0.01221871499847266,
      "grad_norm": 0.5204955339431763,
      "learning_rate": 8.108108108108109e-05,
      "loss": 1.7338,
      "mean_token_accuracy": 0.5830004885792732,
      "step": 30
    },
    {
      "epoch": 0.01629161999796355,
      "grad_norm": 0.4678299129009247,
      "learning_rate": 0.00010810810810810812,
      "loss": 1.7561,
      "mean_token_accuracy": 0.5730855345726014,
      "step": 40
    },
    {
      "epoch": 0.020364524997454433,
      "grad_norm": 0.439376562833786,
      "learning_rate": 0.00013513513513513514,
      "loss": 1.7277,
      "mean_token_accuracy": 0.5785414174199104,
      "step": 50
    },
    {
      "epoch": 0.02443742999694532,
      "grad_norm": 0.5652154684066772,
      "learning_rate": 0.00016216216216216218,
      "loss": 1.5663,
      "mean_token_accuracy": 0.6036677993834019,
      "step": 60
    },
    {
      "epoch": 0.02851033499643621,
      "grad_norm": 0.5163070559501648,
      "learning_rate": 0.0001891891891891892,
      "loss": 1.8259,
      "mean_token_accuracy": 0.5530456639826298,
      "step": 70
    },
    {
      "epoch": 0.0325832399959271,
      "grad_norm": 0.41974571347236633,
      "learning_rate": 0.00019999686634492516,
      "loss": 1.6554,
      "mean_token_accuracy": 0.6073097884654999,
      "step": 80
    },
    {
      "epoch": 0.03665614499541798,
      "grad_norm": 0.5097134709358215,
      "learning_rate": 0.00019997771694180204,
      "loss": 1.7208,
      "mean_token_accuracy": 0.5835812106728554,
      "step": 90
    },
    {
      "epoch": 0.04072904999490887,
      "grad_norm": 0.3469955623149872,
      "learning_rate": 0.00019994116238472668,
      "loss": 1.7954,
      "mean_token_accuracy": 0.5794057920575142,
      "step": 100
    },
    {
      "epoch": 0.044801954994399755,
      "grad_norm": 0.5898286700248718,
      "learning_rate": 0.0001998872090374941,
      "loss": 1.8089,
      "mean_token_accuracy": 0.5614037178456783,
      "step": 110
    },
    {
      "epoch": 0.04887485999389064,
      "grad_norm": 0.3150334656238556,
      "learning_rate": 0.0001998158662928604,
      "loss": 1.5827,
      "mean_token_accuracy": 0.5801003761589527,
      "step": 120
    },
    {
      "epoch": 0.05294776499338153,
      "grad_norm": 0.3100312352180481,
      "learning_rate": 0.00019972714657090772,
      "loss": 1.6712,
      "mean_token_accuracy": 0.5900266923010349,
      "step": 130
    },
    {
      "epoch": 0.05702066999287242,
      "grad_norm": 0.30420345067977905,
      "learning_rate": 0.0001996210653168819,
      "loss": 1.646,
      "mean_token_accuracy": 0.5839473098516464,
      "step": 140
    },
    {
      "epoch": 0.0610935749923633,
      "grad_norm": 0.454593688249588,
      "learning_rate": 0.0001994976409985037,
      "loss": 1.7184,
      "mean_token_accuracy": 0.566600239276886,
      "step": 150
    },
    {
      "epoch": 0.0651664799918542,
      "grad_norm": 0.35688647627830505,
      "learning_rate": 0.0001993568951027537,
      "loss": 1.6766,
      "mean_token_accuracy": 0.5824202686548233,
      "step": 160
    },
    {
      "epoch": 0.06923938499134508,
      "grad_norm": 0.3199939727783203,
      "learning_rate": 0.0001991988521321317,
      "loss": 1.542,
      "mean_token_accuracy": 0.6095141984522343,
      "step": 170
    },
    {
      "epoch": 0.07331228999083596,
      "grad_norm": 0.5523242950439453,
      "learning_rate": 0.00019902353960039087,
      "loss": 1.7218,
      "mean_token_accuracy": 0.5745485998690129,
      "step": 180
    },
    {
      "epoch": 0.07738519499032685,
      "grad_norm": 0.3872721493244171,
      "learning_rate": 0.00019883098802774812,
      "loss": 1.7306,
      "mean_token_accuracy": 0.5514535710215569,
      "step": 190
    },
    {
      "epoch": 0.08145809998981773,
      "grad_norm": 0.2679811120033264,
      "learning_rate": 0.0001986212309355707,
      "loss": 1.6524,
      "mean_token_accuracy": 0.5822832569479942,
      "step": 200
    },
    {
      "epoch": 0.08553100498930863,
      "grad_norm": 0.5167363882064819,
      "learning_rate": 0.00019839430484054046,
      "loss": 1.6964,
      "mean_token_accuracy": 0.573430598527193,
      "step": 210
    },
    {
      "epoch": 0.08960390998879951,
      "grad_norm": 0.4363399147987366,
      "learning_rate": 0.0001981502492482967,
      "loss": 1.7296,
      "mean_token_accuracy": 0.5835007324814796,
      "step": 220
    },
    {
      "epoch": 0.0936768149882904,
      "grad_norm": 0.4052150845527649,
      "learning_rate": 0.00019788910664655848,
      "loss": 1.5772,
      "mean_token_accuracy": 0.5771500714123249,
      "step": 230
    },
    {
      "epoch": 0.09774971998778129,
      "grad_norm": 0.34224212169647217,
      "learning_rate": 0.0001976109224977281,
      "loss": 1.6263,
      "mean_token_accuracy": 0.5942870646715164,
      "step": 240
    },
    {
      "epoch": 0.10182262498727217,
      "grad_norm": 0.4852873980998993,
      "learning_rate": 0.00019731574523097647,
      "loss": 1.5731,
      "mean_token_accuracy": 0.5886094763875007,
      "step": 250
    },
    {
      "epoch": 0.10589552998676306,
      "grad_norm": 0.30241233110427856,
      "learning_rate": 0.00019700362623381197,
      "loss": 1.8311,
      "mean_token_accuracy": 0.5616028495132923,
      "step": 260
    },
    {
      "epoch": 0.10996843498625394,
      "grad_norm": 0.38147303462028503,
      "learning_rate": 0.00019667461984313448,
      "loss": 1.652,
      "mean_token_accuracy": 0.5836799181997776,
      "step": 270
    },
    {
      "epoch": 0.11404133998574484,
      "grad_norm": 0.3174324333667755,
      "learning_rate": 0.00019632878333577592,
      "loss": 1.6831,
      "mean_token_accuracy": 0.5850063987076283,
      "step": 280
    },
    {
      "epoch": 0.11811424498523572,
      "grad_norm": 0.350323349237442,
      "learning_rate": 0.00019596617691852863,
      "loss": 1.6644,
      "mean_token_accuracy": 0.5841067053377629,
      "step": 290
    },
    {
      "epoch": 0.1221871499847266,
      "grad_norm": 0.30346542596817017,
      "learning_rate": 0.0001955868637176643,
      "loss": 1.656,
      "mean_token_accuracy": 0.584677055478096,
      "step": 300
    },
    {
      "epoch": 0.1262600549842175,
      "grad_norm": 0.2639765739440918,
      "learning_rate": 0.00019519090976794406,
      "loss": 1.7454,
      "mean_token_accuracy": 0.5678185373544693,
      "step": 310
    },
    {
      "epoch": 0.1303329599837084,
      "grad_norm": 0.3039887547492981,
      "learning_rate": 0.00019477838400112254,
      "loss": 1.754,
      "mean_token_accuracy": 0.5744720883667469,
      "step": 320
    },
    {
      "epoch": 0.13440586498319926,
      "grad_norm": 0.35102295875549316,
      "learning_rate": 0.00019434935823394746,
      "loss": 1.6665,
      "mean_token_accuracy": 0.5876846723258495,
      "step": 330
    },
    {
      "epoch": 0.13847876998269015,
      "grad_norm": 0.3325759470462799,
      "learning_rate": 0.00019390390715565725,
      "loss": 1.6773,
      "mean_token_accuracy": 0.5869172632694244,
      "step": 340
    },
    {
      "epoch": 0.14255167498218105,
      "grad_norm": 0.37209993600845337,
      "learning_rate": 0.000193442108314978,
      "loss": 1.6328,
      "mean_token_accuracy": 0.5927142709493637,
      "step": 350
    },
    {
      "epoch": 0.14662457998167192,
      "grad_norm": 0.2964717149734497,
      "learning_rate": 0.00019296404210662331,
      "loss": 1.5659,
      "mean_token_accuracy": 0.60322862342,
      "step": 360
    },
    {
      "epoch": 0.1506974849811628,
      "grad_norm": 0.29879456758499146,
      "learning_rate": 0.00019246979175729822,
      "loss": 1.7083,
      "mean_token_accuracy": 0.5893984287977219,
      "step": 370
    },
    {
      "epoch": 0.1547703899806537,
      "grad_norm": 0.3726056218147278,
      "learning_rate": 0.00019195944331121015,
      "loss": 1.6854,
      "mean_token_accuracy": 0.5761750474572181,
      "step": 380
    },
    {
      "epoch": 0.1588432949801446,
      "grad_norm": 0.517816424369812,
      "learning_rate": 0.0001914330856150897,
      "loss": 1.7282,
      "mean_token_accuracy": 0.5854727104306221,
      "step": 390
    },
    {
      "epoch": 0.16291619997963547,
      "grad_norm": 0.25848233699798584,
      "learning_rate": 0.00019089081030272296,
      "loss": 1.5562,
      "mean_token_accuracy": 0.6038706839084625,
      "step": 400
    },
    {
      "epoch": 0.16698910497912636,
      "grad_norm": 0.3191607892513275,
      "learning_rate": 0.00019033271177899922,
      "loss": 1.6452,
      "mean_token_accuracy": 0.5812859788537026,
      "step": 410
    },
    {
      "epoch": 0.17106200997861726,
      "grad_norm": 0.3990655243396759,
      "learning_rate": 0.0001897588872034758,
      "loss": 1.626,
      "mean_token_accuracy": 0.569889971613884,
      "step": 420
    },
    {
      "epoch": 0.17513491497810812,
      "grad_norm": 0.346086323261261,
      "learning_rate": 0.00018916943647346375,
      "loss": 1.7451,
      "mean_token_accuracy": 0.578500047326088,
      "step": 430
    },
    {
      "epoch": 0.17920781997759902,
      "grad_norm": 0.36437422037124634,
      "learning_rate": 0.0001885644622066364,
      "loss": 1.846,
      "mean_token_accuracy": 0.5627885892987251,
      "step": 440
    },
    {
      "epoch": 0.18328072497708991,
      "grad_norm": 0.2968160808086395,
      "learning_rate": 0.00018794406972316482,
      "loss": 1.671,
      "mean_token_accuracy": 0.5769762165844441,
      "step": 450
    },
    {
      "epoch": 0.1873536299765808,
      "grad_norm": 0.2781198024749756,
      "learning_rate": 0.00018730836702738257,
      "loss": 1.4983,
      "mean_token_accuracy": 0.613883113116026,
      "step": 460
    },
    {
      "epoch": 0.19142653497607168,
      "grad_norm": 0.4645621180534363,
      "learning_rate": 0.0001866574647889831,
      "loss": 1.6776,
      "mean_token_accuracy": 0.5890260674059391,
      "step": 470
    },
    {
      "epoch": 0.19549943997556257,
      "grad_norm": 0.3920878767967224,
      "learning_rate": 0.00018599147632375332,
      "loss": 1.802,
      "mean_token_accuracy": 0.568213502317667,
      "step": 480
    },
    {
      "epoch": 0.19957234497505347,
      "grad_norm": 0.3473225235939026,
      "learning_rate": 0.00018531051757384633,
      "loss": 1.7161,
      "mean_token_accuracy": 0.5727271348237991,
      "step": 490
    },
    {
      "epoch": 0.20364524997454433,
      "grad_norm": 0.30091673135757446,
      "learning_rate": 0.00018461470708759712,
      "loss": 1.7042,
      "mean_token_accuracy": 0.5763454169034958,
      "step": 500
    },
    {
      "epoch": 0.20771815497403523,
      "grad_norm": 0.31175661087036133,
      "learning_rate": 0.00018390416599888435,
      "loss": 1.689,
      "mean_token_accuracy": 0.5796464458107948,
      "step": 510
    },
    {
      "epoch": 0.21179105997352612,
      "grad_norm": 0.3624255955219269,
      "learning_rate": 0.0001831790180060422,
      "loss": 1.5619,
      "mean_token_accuracy": 0.6015763126313687,
      "step": 520
    },
    {
      "epoch": 0.215863964973017,
      "grad_norm": 0.2667541205883026,
      "learning_rate": 0.00018243938935032561,
      "loss": 1.6877,
      "mean_token_accuracy": 0.5839527539908886,
      "step": 530
    },
    {
      "epoch": 0.2199368699725079,
      "grad_norm": 0.31019967794418335,
      "learning_rate": 0.00018168540879393296,
      "loss": 1.7831,
      "mean_token_accuracy": 0.5688935197889805,
      "step": 540
    },
    {
      "epoch": 0.22400977497199878,
      "grad_norm": 0.2726418673992157,
      "learning_rate": 0.0001809172075975897,
      "loss": 1.7288,
      "mean_token_accuracy": 0.5798229008913041,
      "step": 550
    },
    {
      "epoch": 0.22808267997148968,
      "grad_norm": 0.29514381289482117,
      "learning_rate": 0.00018013491949769734,
      "loss": 1.7188,
      "mean_token_accuracy": 0.5756009854376316,
      "step": 560
    },
    {
      "epoch": 0.23215558497098054,
      "grad_norm": 0.37964069843292236,
      "learning_rate": 0.00017933868068305104,
      "loss": 1.6244,
      "mean_token_accuracy": 0.5932842157781124,
      "step": 570
    },
    {
      "epoch": 0.23622848997047144,
      "grad_norm": 0.300620436668396,
      "learning_rate": 0.0001785286297711305,
      "loss": 1.5565,
      "mean_token_accuracy": 0.5965760670602321,
      "step": 580
    },
    {
      "epoch": 0.24030139496996233,
      "grad_norm": 0.5466737151145935,
      "learning_rate": 0.00017770490778396808,
      "loss": 1.6532,
      "mean_token_accuracy": 0.5821332208812237,
      "step": 590
    },
    {
      "epoch": 0.2443742999694532,
      "grad_norm": 0.3445660173892975,
      "learning_rate": 0.00017686765812359808,
      "loss": 1.7585,
      "mean_token_accuracy": 0.5790032669901848,
      "step": 600
    },
    {
      "epoch": 0.2484472049689441,
      "grad_norm": 0.3492606282234192,
      "learning_rate": 0.0001760170265470921,
      "loss": 1.6401,
      "mean_token_accuracy": 0.6002471588551999,
      "step": 610
    },
    {
      "epoch": 0.252520109968435,
      "grad_norm": 0.31294527649879456,
      "learning_rate": 0.00017515316114118375,
      "loss": 1.6915,
      "mean_token_accuracy": 0.5570432722568512,
      "step": 620
    },
    {
      "epoch": 0.25659301496792586,
      "grad_norm": 0.27257561683654785,
      "learning_rate": 0.00017427621229648853,
      "loss": 1.5666,
      "mean_token_accuracy": 0.6028999522328377,
      "step": 630
    },
    {
      "epoch": 0.2606659199674168,
      "grad_norm": 0.29818692803382874,
      "learning_rate": 0.00017338633268132212,
      "loss": 1.5926,
      "mean_token_accuracy": 0.5965964362025261,
      "step": 640
    },
    {
      "epoch": 0.26473882496690765,
      "grad_norm": 0.49210649728775024,
      "learning_rate": 0.0001724836772151223,
      "loss": 1.5925,
      "mean_token_accuracy": 0.5952631443738937,
      "step": 650
    },
    {
      "epoch": 0.2688117299663985,
      "grad_norm": 0.3807302713394165,
      "learning_rate": 0.00017156840304147902,
      "loss": 1.6237,
      "mean_token_accuracy": 0.5884141281247139,
      "step": 660
    },
    {
      "epoch": 0.27288463496588944,
      "grad_norm": 0.2621661126613617,
      "learning_rate": 0.00017064066950077722,
      "loss": 1.7356,
      "mean_token_accuracy": 0.5827617473900318,
      "step": 670
    },
    {
      "epoch": 0.2769575399653803,
      "grad_norm": 0.30957838892936707,
      "learning_rate": 0.00016970063810245716,
      "loss": 1.5585,
      "mean_token_accuracy": 0.5888052701950073,
      "step": 680
    },
    {
      "epoch": 0.2810304449648712,
      "grad_norm": 0.2501460611820221,
      "learning_rate": 0.00016874847249689722,
      "loss": 1.5913,
      "mean_token_accuracy": 0.5886548452079297,
      "step": 690
    },
    {
      "epoch": 0.2851033499643621,
      "grad_norm": 0.3207811415195465,
      "learning_rate": 0.00016778433844692397,
      "loss": 1.6791,
      "mean_token_accuracy": 0.5861249402165413,
      "step": 700
    },
    {
      "epoch": 0.28917625496385296,
      "grad_norm": 0.45466601848602295,
      "learning_rate": 0.0001668084037989544,
      "loss": 1.5153,
      "mean_token_accuracy": 0.5999807387590408,
      "step": 710
    },
    {
      "epoch": 0.29324915996334383,
      "grad_norm": 0.34910282492637634,
      "learning_rate": 0.00016582083845377552,
      "loss": 1.6821,
      "mean_token_accuracy": 0.5889992110431195,
      "step": 720
    },
    {
      "epoch": 0.29732206496283475,
      "grad_norm": 0.4916020929813385,
      "learning_rate": 0.00016482181433696643,
      "loss": 1.8462,
      "mean_token_accuracy": 0.5748938458040357,
      "step": 730
    },
    {
      "epoch": 0.3013949699623256,
      "grad_norm": 0.2545833885669708,
      "learning_rate": 0.00016381150536896736,
      "loss": 1.5756,
      "mean_token_accuracy": 0.6056667067110538,
      "step": 740
    },
    {
      "epoch": 0.3054678749618165,
      "grad_norm": 0.30347147583961487,
      "learning_rate": 0.0001627900874348022,
      "loss": 1.6003,
      "mean_token_accuracy": 0.5873342089354991,
      "step": 750
    },
    {
      "epoch": 0.3095407799613074,
      "grad_norm": 0.37371426820755005,
      "learning_rate": 0.0001617577383534584,
      "loss": 1.6576,
      "mean_token_accuracy": 0.5790071420371532,
      "step": 760
    },
    {
      "epoch": 0.3136136849607983,
      "grad_norm": 0.41969504952430725,
      "learning_rate": 0.00016071463784693045,
      "loss": 1.6181,
      "mean_token_accuracy": 0.5854876518249512,
      "step": 770
    },
    {
      "epoch": 0.3176865899602892,
      "grad_norm": 0.17495319247245789,
      "learning_rate": 0.00015966096750893197,
      "loss": 1.5142,
      "mean_token_accuracy": 0.6079291738569736,
      "step": 780
    },
    {
      "epoch": 0.32175949495978007,
      "grad_norm": 0.30013784766197205,
      "learning_rate": 0.00015859691077328215,
      "loss": 1.6583,
      "mean_token_accuracy": 0.581703095138073,
      "step": 790
    },
    {
      "epoch": 0.32583239995927094,
      "grad_norm": 0.3358050584793091,
      "learning_rate": 0.00015752265288197155,
      "loss": 1.6468,
      "mean_token_accuracy": 0.6049091577529907,
      "step": 800
    },
    {
      "epoch": 0.32990530495876186,
      "grad_norm": 0.3690403699874878,
      "learning_rate": 0.00015643838085291323,
      "loss": 1.8431,
      "mean_token_accuracy": 0.5602408707141876,
      "step": 810
    },
    {
      "epoch": 0.3339782099582527,
      "grad_norm": 0.34296655654907227,
      "learning_rate": 0.00015534428344738505,
      "loss": 1.7042,
      "mean_token_accuracy": 0.5799131192266941,
      "step": 820
    },
    {
      "epoch": 0.3380511149577436,
      "grad_norm": 0.2764555513858795,
      "learning_rate": 0.00015424055113716763,
      "loss": 1.5479,
      "mean_token_accuracy": 0.5909703068435193,
      "step": 830
    },
    {
      "epoch": 0.3421240199572345,
      "grad_norm": 0.26227012276649475,
      "learning_rate": 0.0001531273760713855,
      "loss": 1.5303,
      "mean_token_accuracy": 0.5910052061080933,
      "step": 840
    },
    {
      "epoch": 0.3461969249567254,
      "grad_norm": 0.3656936585903168,
      "learning_rate": 0.00015200495204305574,
      "loss": 1.5586,
      "mean_token_accuracy": 0.5943005800247192,
      "step": 850
    },
    {
      "epoch": 0.35026982995621625,
      "grad_norm": 0.29997819662094116,
      "learning_rate": 0.00015087347445535013,
      "loss": 1.8219,
      "mean_token_accuracy": 0.5533552631735802,
      "step": 860
    },
    {
      "epoch": 0.3543427349557072,
      "grad_norm": 0.290685772895813,
      "learning_rate": 0.00014973314028757787,
      "loss": 1.7261,
      "mean_token_accuracy": 0.5844682581722737,
      "step": 870
    },
    {
      "epoch": 0.35841563995519804,
      "grad_norm": 0.34553012251853943,
      "learning_rate": 0.00014858414806089295,
      "loss": 1.6982,
      "mean_token_accuracy": 0.5762835793197155,
      "step": 880
    },
    {
      "epoch": 0.3624885449546889,
      "grad_norm": 0.2141156941652298,
      "learning_rate": 0.0001474266978037338,
      "loss": 1.5318,
      "mean_token_accuracy": 0.6048024773597718,
      "step": 890
    },
    {
      "epoch": 0.36656144995417983,
      "grad_norm": 0.30456602573394775,
      "learning_rate": 0.00014626099101700018,
      "loss": 1.7901,
      "mean_token_accuracy": 0.5763920709490776,
      "step": 900
    },
    {
      "epoch": 0.3706343549536707,
      "grad_norm": 0.26921945810317993,
      "learning_rate": 0.00014508723063897376,
      "loss": 1.4936,
      "mean_token_accuracy": 0.6303243085741996,
      "step": 910
    },
    {
      "epoch": 0.3747072599531616,
      "grad_norm": 0.28455570340156555,
      "learning_rate": 0.00014390562100998868,
      "loss": 1.5804,
      "mean_token_accuracy": 0.6074232332408428,
      "step": 920
    },
    {
      "epoch": 0.3787801649526525,
      "grad_norm": 0.3388415575027466,
      "learning_rate": 0.00014271636783685777,
      "loss": 1.6731,
      "mean_token_accuracy": 0.5768752813339233,
      "step": 930
    },
    {
      "epoch": 0.38285306995214335,
      "grad_norm": 0.4311608076095581,
      "learning_rate": 0.00014151967815706091,
      "loss": 1.7237,
      "mean_token_accuracy": 0.5706497602164745,
      "step": 940
    },
    {
      "epoch": 0.3869259749516343,
      "grad_norm": 0.35940027236938477,
      "learning_rate": 0.00014031576030270202,
      "loss": 1.5355,
      "mean_token_accuracy": 0.5908183179795742,
      "step": 950
    },
    {
      "epoch": 0.39099887995112514,
      "grad_norm": 0.34071287512779236,
      "learning_rate": 0.00013910482386424023,
      "loss": 1.7247,
      "mean_token_accuracy": 0.5757749699056148,
      "step": 960
    },
    {
      "epoch": 0.395071784950616,
      "grad_norm": 0.413870245218277,
      "learning_rate": 0.00013788707965400236,
      "loss": 1.6796,
      "mean_token_accuracy": 0.592286454886198,
      "step": 970
    },
    {
      "epoch": 0.39914468995010693,
      "grad_norm": 0.2649496793746948,
      "learning_rate": 0.00013666273966948252,
      "loss": 1.5955,
      "mean_token_accuracy": 0.5936679825186729,
      "step": 980
    },
    {
      "epoch": 0.4032175949495978,
      "grad_norm": 0.3525199294090271,
      "learning_rate": 0.00013543201705643526,
      "loss": 1.647,
      "mean_token_accuracy": 0.5950982637703419,
      "step": 990
    },
    {
      "epoch": 0.40729049994908867,
      "grad_norm": 0.33436283469200134,
      "learning_rate": 0.00013419512607176914,
      "loss": 1.7161,
      "mean_token_accuracy": 0.574284989386797,
      "step": 1000
    },
    {
      "epoch": 0.4113634049485796,
      "grad_norm": 0.46867313981056213,
      "learning_rate": 0.00013295228204624648,
      "loss": 1.544,
      "mean_token_accuracy": 0.6102774910628795,
      "step": 1010
    },
    {
      "epoch": 0.41543630994807046,
      "grad_norm": 0.30373555421829224,
      "learning_rate": 0.00013170370134699653,
      "loss": 1.6287,
      "mean_token_accuracy": 0.5843084178864956,
      "step": 1020
    },
    {
      "epoch": 0.4195092149475613,
      "grad_norm": 0.2981624901294708,
      "learning_rate": 0.00013044960133984804,
      "loss": 1.6858,
      "mean_token_accuracy": 0.5856122255325318,
      "step": 1030
    },
    {
      "epoch": 0.42358211994705225,
      "grad_norm": 0.3545626997947693,
      "learning_rate": 0.00012919020035148776,
      "loss": 1.7392,
      "mean_token_accuracy": 0.5841099888086319,
      "step": 1040
    },
    {
      "epoch": 0.4276550249465431,
      "grad_norm": 0.2896677553653717,
      "learning_rate": 0.0001279257176314521,
      "loss": 1.5007,
      "mean_token_accuracy": 0.573243772238493,
      "step": 1050
    },
    {
      "epoch": 0.431727929946034,
      "grad_norm": 0.36384209990501404,
      "learning_rate": 0.00012665637331395785,
      "loss": 1.487,
      "mean_token_accuracy": 0.6025885075330735,
      "step": 1060
    },
    {
      "epoch": 0.4358008349455249,
      "grad_norm": 0.3681187033653259,
      "learning_rate": 0.00012538238837957882,
      "loss": 1.4913,
      "mean_token_accuracy": 0.5982382036745548,
      "step": 1070
    },
    {
      "epoch": 0.4398737399450158,
      "grad_norm": 0.2680988311767578,
      "learning_rate": 0.00012410398461677554,
      "loss": 1.6263,
      "mean_token_accuracy": 0.5956345148384571,
      "step": 1080
    },
    {
      "epoch": 0.4439466449445067,
      "grad_norm": 0.23174384236335754,
      "learning_rate": 0.00012282138458328358,
      "loss": 1.7378,
      "mean_token_accuracy": 0.590882021188736,
      "step": 1090
    },
    {
      "epoch": 0.44801954994399756,
      "grad_norm": 0.34088292717933655,
      "learning_rate": 0.00012153481156736892,
      "loss": 1.7385,
      "mean_token_accuracy": 0.5994494572281838,
      "step": 1100
    },
    {
      "epoch": 0.45209245494348843,
      "grad_norm": 0.24563632905483246,
      "learning_rate": 0.00012024448954895522,
      "loss": 1.5212,
      "mean_token_accuracy": 0.6165470741689205,
      "step": 1110
    },
    {
      "epoch": 0.45616535994297935,
      "grad_norm": 0.26980966329574585,
      "learning_rate": 0.00011895064316063127,
      "loss": 1.5254,
      "mean_token_accuracy": 0.5898841544985771,
      "step": 1120
    },
    {
      "epoch": 0.4602382649424702,
      "grad_norm": 0.32573202252388,
      "learning_rate": 0.00011765349764854461,
      "loss": 1.5704,
      "mean_token_accuracy": 0.6047514051198959,
      "step": 1130
    },
    {
      "epoch": 0.4643111699419611,
      "grad_norm": 0.3137454390525818,
      "learning_rate": 0.00011635327883318831,
      "loss": 1.5893,
      "mean_token_accuracy": 0.5792985640466213,
      "step": 1140
    },
    {
      "epoch": 0.468384074941452,
      "grad_norm": 0.368747353553772,
      "learning_rate": 0.00011505021307008785,
      "loss": 1.6388,
      "mean_token_accuracy": 0.5851111486554146,
      "step": 1150
    },
    {
      "epoch": 0.4724569799409429,
      "grad_norm": 0.325250506401062,
      "learning_rate": 0.00011374452721039477,
      "loss": 1.7192,
      "mean_token_accuracy": 0.5636343933641911,
      "step": 1160
    },
    {
      "epoch": 0.47652988494043375,
      "grad_norm": 0.32918378710746765,
      "learning_rate": 0.00011243644856139403,
      "loss": 1.6048,
      "mean_token_accuracy": 0.6072004094719887,
      "step": 1170
    },
    {
      "epoch": 0.48060278993992467,
      "grad_norm": 0.2892746031284332,
      "learning_rate": 0.00011112620484693223,
      "loss": 1.6785,
      "mean_token_accuracy": 0.5872686378657818,
      "step": 1180
    },
    {
      "epoch": 0.48467569493941554,
      "grad_norm": 0.2459000200033188,
      "learning_rate": 0.0001098140241677728,
      "loss": 1.5799,
      "mean_token_accuracy": 0.6077749952673912,
      "step": 1190
    },
    {
      "epoch": 0.4887485999389064,
      "grad_norm": 0.3696756660938263,
      "learning_rate": 0.00010850013496188606,
      "loss": 1.5966,
      "mean_token_accuracy": 0.5970290452241898,
      "step": 1200
    },
    {
      "epoch": 0.4928215049383973,
      "grad_norm": 0.27681517601013184,
      "learning_rate": 0.00010718476596468028,
      "loss": 1.7161,
      "mean_token_accuracy": 0.5730410292744637,
      "step": 1210
    },
    {
      "epoch": 0.4968944099378882,
      "grad_norm": 0.2720302641391754,
      "learning_rate": 0.00010586814616918113,
      "loss": 1.6991,
      "mean_token_accuracy": 0.5764113113284111,
      "step": 1220
    },
    {
      "epoch": 0.5009673149373791,
      "grad_norm": 0.34990179538726807,
      "learning_rate": 0.00010455050478616617,
      "loss": 1.7114,
      "mean_token_accuracy": 0.5776129819452762,
      "step": 1230
    },
    {
      "epoch": 0.50504021993687,
      "grad_norm": 0.33753877878189087,
      "learning_rate": 0.00010323207120426142,
      "loss": 1.8174,
      "mean_token_accuracy": 0.5551487416028976,
      "step": 1240
    },
    {
      "epoch": 0.5091131249363609,
      "grad_norm": 0.41568267345428467,
      "learning_rate": 0.00010191307495000712,
      "loss": 1.799,
      "mean_token_accuracy": 0.5767477229237556,
      "step": 1250
    },
    {
      "epoch": 0.5131860299358517,
      "grad_norm": 0.2747114300727844,
      "learning_rate": 0.00010059374564789932,
      "loss": 1.4763,
      "mean_token_accuracy": 0.6238099962472916,
      "step": 1260
    },
    {
      "epoch": 0.5172589349353426,
      "grad_norm": 0.2458280771970749,
      "learning_rate": 9.927431298041441e-05,
      "loss": 1.5262,
      "mean_token_accuracy": 0.6056429393589496,
      "step": 1270
    },
    {
      "epoch": 0.5213318399348336,
      "grad_norm": 0.2757134437561035,
      "learning_rate": 9.795500664802385e-05,
      "loss": 1.621,
      "mean_token_accuracy": 0.5842474676668644,
      "step": 1280
    },
    {
      "epoch": 0.5254047449343244,
      "grad_norm": 0.21551673114299774,
      "learning_rate": 9.663605632920518e-05,
      "loss": 1.659,
      "mean_token_accuracy": 0.5935076788067818,
      "step": 1290
    },
    {
      "epoch": 0.5294776499338153,
      "grad_norm": 0.5034237504005432,
      "learning_rate": 9.53176916404576e-05,
      "loss": 1.7666,
      "mean_token_accuracy": 0.5699214018881321,
      "step": 1300
    },
    {
      "epoch": 0.5335505549333062,
      "grad_norm": 0.26525890827178955,
      "learning_rate": 9.400014209632763e-05,
      "loss": 1.6026,
      "mean_token_accuracy": 0.5935329027473927,
      "step": 1310
    },
    {
      "epoch": 0.537623459932797,
      "grad_norm": 0.28077974915504456,
      "learning_rate": 9.268363706945312e-05,
      "loss": 1.7769,
      "mean_token_accuracy": 0.5664741955697536,
      "step": 1320
    },
    {
      "epoch": 0.5416963649322879,
      "grad_norm": 0.514976978302002,
      "learning_rate": 9.136840575063147e-05,
      "loss": 1.5157,
      "mean_token_accuracy": 0.6034789860248566,
      "step": 1330
    },
    {
      "epoch": 0.5457692699317789,
      "grad_norm": 0.318249374628067,
      "learning_rate": 9.005467710891987e-05,
      "loss": 1.8756,
      "mean_token_accuracy": 0.5630597174167633,
      "step": 1340
    },
    {
      "epoch": 0.5498421749312697,
      "grad_norm": 0.24940232932567596,
      "learning_rate": 8.874267985177394e-05,
      "loss": 1.5708,
      "mean_token_accuracy": 0.5888857699930667,
      "step": 1350
    },
    {
      "epoch": 0.5539150799307606,
      "grad_norm": 0.26299914717674255,
      "learning_rate": 8.743264238523199e-05,
      "loss": 1.6876,
      "mean_token_accuracy": 0.5782084472477436,
      "step": 1360
    },
    {
      "epoch": 0.5579879849302515,
      "grad_norm": 0.2588869333267212,
      "learning_rate": 8.612479277415174e-05,
      "loss": 1.6694,
      "mean_token_accuracy": 0.585976778715849,
      "step": 1370
    },
    {
      "epoch": 0.5620608899297423,
      "grad_norm": 0.2464841604232788,
      "learning_rate": 8.481935870250637e-05,
      "loss": 1.5838,
      "mean_token_accuracy": 0.605075704306364,
      "step": 1380
    },
    {
      "epoch": 0.5661337949292333,
      "grad_norm": 0.3231446146965027,
      "learning_rate": 8.351656743374709e-05,
      "loss": 1.6321,
      "mean_token_accuracy": 0.5716924026608468,
      "step": 1390
    },
    {
      "epoch": 0.5702066999287242,
      "grad_norm": 0.23010632395744324,
      "learning_rate": 8.22166457712386e-05,
      "loss": 1.5016,
      "mean_token_accuracy": 0.6048496462404728,
      "step": 1400
    },
    {
      "epoch": 0.5742796049282151,
      "grad_norm": 0.3723667860031128,
      "learning_rate": 8.091982001877493e-05,
      "loss": 1.5412,
      "mean_token_accuracy": 0.6111127749085427,
      "step": 1410
    },
    {
      "epoch": 0.5783525099277059,
      "grad_norm": 0.24990710616111755,
      "learning_rate": 7.962631594118208e-05,
      "loss": 1.7629,
      "mean_token_accuracy": 0.5585654892027379,
      "step": 1420
    },
    {
      "epoch": 0.5824254149271968,
      "grad_norm": 0.3681967556476593,
      "learning_rate": 7.833635872501462e-05,
      "loss": 1.6342,
      "mean_token_accuracy": 0.5907308183610439,
      "step": 1430
    },
    {
      "epoch": 0.5864983199266877,
      "grad_norm": 0.3382493555545807,
      "learning_rate": 7.705017293935281e-05,
      "loss": 1.5803,
      "mean_token_accuracy": 0.6061145611107349,
      "step": 1440
    },
    {
      "epoch": 0.5905712249261786,
      "grad_norm": 0.28145501017570496,
      "learning_rate": 7.576798249670725e-05,
      "loss": 1.8459,
      "mean_token_accuracy": 0.5457224696874619,
      "step": 1450
    },
    {
      "epoch": 0.5946441299256695,
      "grad_norm": 0.3189752697944641,
      "learning_rate": 7.449001061403809e-05,
      "loss": 1.5263,
      "mean_token_accuracy": 0.5937092356383801,
      "step": 1460
    },
    {
      "epoch": 0.5987170349251604,
      "grad_norm": 0.2588890492916107,
      "learning_rate": 7.321647977389479e-05,
      "loss": 1.5965,
      "mean_token_accuracy": 0.5941358201205731,
      "step": 1470
    },
    {
      "epoch": 0.6027899399246512,
      "grad_norm": 0.2777283191680908,
      "learning_rate": 7.194761168568445e-05,
      "loss": 1.5667,
      "mean_token_accuracy": 0.6003799811005592,
      "step": 1480
    },
    {
      "epoch": 0.6068628449241421,
      "grad_norm": 0.23376941680908203,
      "learning_rate": 7.068362724707392e-05,
      "loss": 1.4813,
      "mean_token_accuracy": 0.6078310683369637,
      "step": 1490
    },
    {
      "epoch": 0.610935749923633,
      "grad_norm": 0.2295948565006256,
      "learning_rate": 6.942474650553408e-05,
      "loss": 1.6786,
      "mean_token_accuracy": 0.5886344678699971,
      "step": 1500
    },
    {
      "epoch": 0.615008654923124,
      "grad_norm": 0.3243666887283325,
      "learning_rate": 6.817118862003132e-05,
      "loss": 1.6343,
      "mean_token_accuracy": 0.5855603873729706,
      "step": 1510
    },
    {
      "epoch": 0.6190815599226148,
      "grad_norm": 0.7187057733535767,
      "learning_rate": 6.692317182287432e-05,
      "loss": 1.8144,
      "mean_token_accuracy": 0.5671629451215268,
      "step": 1520
    },
    {
      "epoch": 0.6231544649221057,
      "grad_norm": 0.35659492015838623,
      "learning_rate": 6.568091338172195e-05,
      "loss": 1.6117,
      "mean_token_accuracy": 0.601442601531744,
      "step": 1530
    },
    {
      "epoch": 0.6272273699215966,
      "grad_norm": 0.3395217955112457,
      "learning_rate": 6.444462956175876e-05,
      "loss": 1.6222,
      "mean_token_accuracy": 0.5970501154661179,
      "step": 1540
    },
    {
      "epoch": 0.6313002749210874,
      "grad_norm": 0.26399192214012146,
      "learning_rate": 6.321453558804571e-05,
      "loss": 1.6048,
      "mean_token_accuracy": 0.5844796732068062,
      "step": 1550
    },
    {
      "epoch": 0.6353731799205784,
      "grad_norm": 0.2993052899837494,
      "learning_rate": 6.199084560805121e-05,
      "loss": 1.7073,
      "mean_token_accuracy": 0.5789771333336831,
      "step": 1560
    },
    {
      "epoch": 0.6394460849200693,
      "grad_norm": 0.2676873505115509,
      "learning_rate": 6.077377265437043e-05,
      "loss": 1.8152,
      "mean_token_accuracy": 0.5734024614095687,
      "step": 1570
    },
    {
      "epoch": 0.6435189899195601,
      "grad_norm": 0.293557733297348,
      "learning_rate": 5.956352860763809e-05,
      "loss": 1.7108,
      "mean_token_accuracy": 0.5808110930025577,
      "step": 1580
    },
    {
      "epoch": 0.647591894919051,
      "grad_norm": 0.23729322850704193,
      "learning_rate": 5.83603241596423e-05,
      "loss": 1.4793,
      "mean_token_accuracy": 0.6202867470681668,
      "step": 1590
    },
    {
      "epoch": 0.6516647999185419,
      "grad_norm": 0.30609002709388733,
      "learning_rate": 5.716436877664517e-05,
      "loss": 1.752,
      "mean_token_accuracy": 0.5730870619416237,
      "step": 1600
    },
    {
      "epoch": 0.6557377049180327,
      "grad_norm": 0.30717799067497253,
      "learning_rate": 5.5975870662916484e-05,
      "loss": 1.7172,
      "mean_token_accuracy": 0.5701417997479439,
      "step": 1610
    },
    {
      "epoch": 0.6598106099175237,
      "grad_norm": 0.44037064909935,
      "learning_rate": 5.4795036724487735e-05,
      "loss": 1.5377,
      "mean_token_accuracy": 0.6102925211191177,
      "step": 1620
    },
    {
      "epoch": 0.6638835149170146,
      "grad_norm": 0.24488377571105957,
      "learning_rate": 5.362207253313136e-05,
      "loss": 1.4547,
      "mean_token_accuracy": 0.6181615687906742,
      "step": 1630
    },
    {
      "epoch": 0.6679564199165055,
      "grad_norm": 0.2750435769557953,
      "learning_rate": 5.245718229057326e-05,
      "loss": 1.6086,
      "mean_token_accuracy": 0.5703060247004033,
      "step": 1640
    },
    {
      "epoch": 0.6720293249159963,
      "grad_norm": 0.2821342647075653,
      "learning_rate": 5.1300568792942535e-05,
      "loss": 1.6018,
      "mean_token_accuracy": 0.5989562854170799,
      "step": 1650
    },
    {
      "epoch": 0.6761022299154872,
      "grad_norm": 0.22521165013313293,
      "learning_rate": 5.015243339546731e-05,
      "loss": 1.7574,
      "mean_token_accuracy": 0.5801547184586525,
      "step": 1660
    },
    {
      "epoch": 0.6801751349149782,
      "grad_norm": 0.29259297251701355,
      "learning_rate": 4.90129759774202e-05,
      "loss": 1.7425,
      "mean_token_accuracy": 0.5723637498915195,
      "step": 1670
    },
    {
      "epoch": 0.684248039914469,
      "grad_norm": 0.2705146074295044,
      "learning_rate": 4.7882394907321674e-05,
      "loss": 1.6121,
      "mean_token_accuracy": 0.6098110035061837,
      "step": 1680
    },
    {
      "epoch": 0.6883209449139599,
      "grad_norm": 0.2677505910396576,
      "learning_rate": 4.676088700840575e-05,
      "loss": 1.6416,
      "mean_token_accuracy": 0.5757282719016075,
      "step": 1690
    },
    {
      "epoch": 0.6923938499134508,
      "grad_norm": 0.2644527554512024,
      "learning_rate": 4.564864752435509e-05,
      "loss": 1.6675,
      "mean_token_accuracy": 0.6154301188886165,
      "step": 1700
    },
    {
      "epoch": 0.6964667549129416,
      "grad_norm": 0.23048701882362366,
      "learning_rate": 4.454587008531097e-05,
      "loss": 1.6641,
      "mean_token_accuracy": 0.5855869121849537,
      "step": 1710
    },
    {
      "epoch": 0.7005396599124325,
      "grad_norm": 0.2789078652858734,
      "learning_rate": 4.345274667416399e-05,
      "loss": 1.6978,
      "mean_token_accuracy": 0.5762215368449688,
      "step": 1720
    },
    {
      "epoch": 0.7046125649119235,
      "grad_norm": 0.271881103515625,
      "learning_rate": 4.2369467593131926e-05,
      "loss": 1.681,
      "mean_token_accuracy": 0.5667479492723941,
      "step": 1730
    },
    {
      "epoch": 0.7086854699114143,
      "grad_norm": 0.24953240156173706,
      "learning_rate": 4.129622143062985e-05,
      "loss": 1.5405,
      "mean_token_accuracy": 0.6005463972687721,
      "step": 1740
    },
    {
      "epoch": 0.7127583749109052,
      "grad_norm": 0.3925758898258209,
      "learning_rate": 4.02331950284387e-05,
      "loss": 1.7217,
      "mean_token_accuracy": 0.5689709268510341,
      "step": 1750
    },
    {
      "epoch": 0.7168312799103961,
      "grad_norm": 0.2544846832752228,
      "learning_rate": 3.918057344917795e-05,
      "loss": 1.5948,
      "mean_token_accuracy": 0.5933421194553375,
      "step": 1760
    },
    {
      "epoch": 0.720904184909887,
      "grad_norm": 0.32760509848594666,
      "learning_rate": 3.813853994408793e-05,
      "loss": 1.6678,
      "mean_token_accuracy": 0.5856216661632061,
      "step": 1770
    },
    {
      "epoch": 0.7249770899093778,
      "grad_norm": 0.2847062647342682,
      "learning_rate": 3.7107275921127704e-05,
      "loss": 1.682,
      "mean_token_accuracy": 0.5889982558786869,
      "step": 1780
    },
    {
      "epoch": 0.7290499949088688,
      "grad_norm": 0.22774401307106018,
      "learning_rate": 3.60869609133936e-05,
      "loss": 1.7135,
      "mean_token_accuracy": 0.5773006275296211,
      "step": 1790
    },
    {
      "epoch": 0.7331228999083597,
      "grad_norm": 0.2606080174446106,
      "learning_rate": 3.507777254786425e-05,
      "loss": 1.4999,
      "mean_token_accuracy": 0.6269011601805687,
      "step": 1800
    },
    {
      "epoch": 0.7371958049078505,
      "grad_norm": 0.2962757647037506,
      "learning_rate": 3.407988651447738e-05,
      "loss": 1.6202,
      "mean_token_accuracy": 0.5973276488482953,
      "step": 1810
    },
    {
      "epoch": 0.7412687099073414,
      "grad_norm": 0.29107147455215454,
      "learning_rate": 3.3093476535544074e-05,
      "loss": 1.5502,
      "mean_token_accuracy": 0.6133273020386696,
      "step": 1820
    },
    {
      "epoch": 0.7453416149068323,
      "grad_norm": 0.20980948209762573,
      "learning_rate": 3.211871433550513e-05,
      "loss": 1.6333,
      "mean_token_accuracy": 0.6155988665297627,
      "step": 1830
    },
    {
      "epoch": 0.7494145199063232,
      "grad_norm": 0.24882718920707703,
      "learning_rate": 3.1155769611035825e-05,
      "loss": 1.4907,
      "mean_token_accuracy": 0.6201219961047173,
      "step": 1840
    },
    {
      "epoch": 0.7534874249058141,
      "grad_norm": 0.23715901374816895,
      "learning_rate": 3.0204810001503124e-05,
      "loss": 1.8018,
      "mean_token_accuracy": 0.5756942637264728,
      "step": 1850
    },
    {
      "epoch": 0.757560329905305,
      "grad_norm": 0.35216882824897766,
      "learning_rate": 2.9266001059781258e-05,
      "loss": 1.7305,
      "mean_token_accuracy": 0.5722471877932549,
      "step": 1860
    },
    {
      "epoch": 0.7616332349047958,
      "grad_norm": 0.2924104332923889,
      "learning_rate": 2.83395062234308e-05,
      "loss": 1.6642,
      "mean_token_accuracy": 0.58627370595932,
      "step": 1870
    },
    {
      "epoch": 0.7657061399042867,
      "grad_norm": 0.27772393822669983,
      "learning_rate": 2.742548678624548e-05,
      "loss": 1.8349,
      "mean_token_accuracy": 0.5614061944186688,
      "step": 1880
    },
    {
      "epoch": 0.7697790449037776,
      "grad_norm": 0.31574469804763794,
      "learning_rate": 2.6524101870172846e-05,
      "loss": 1.7883,
      "mean_token_accuracy": 0.561104378849268,
      "step": 1890
    },
    {
      "epoch": 0.7738519499032686,
      "grad_norm": 0.253779798746109,
      "learning_rate": 2.5635508397612262e-05,
      "loss": 1.6654,
      "mean_token_accuracy": 0.5888113439083099,
      "step": 1900
    },
    {
      "epoch": 0.7779248549027594,
      "grad_norm": 0.2504970133304596,
      "learning_rate": 2.4759861064096603e-05,
      "loss": 1.6478,
      "mean_token_accuracy": 0.5726306334137916,
      "step": 1910
    },
    {
      "epoch": 0.7819977599022503,
      "grad_norm": 0.23571030795574188,
      "learning_rate": 2.3897312311360955e-05,
      "loss": 1.5355,
      "mean_token_accuracy": 0.6026113323867321,
      "step": 1920
    },
    {
      "epoch": 0.7860706649017412,
      "grad_norm": 0.2395690232515335,
      "learning_rate": 2.3048012300804222e-05,
      "loss": 1.5565,
      "mean_token_accuracy": 0.5976604223251343,
      "step": 1930
    },
    {
      "epoch": 0.790143569901232,
      "grad_norm": 0.5269713997840881,
      "learning_rate": 2.221210888734736e-05,
      "loss": 1.636,
      "mean_token_accuracy": 0.5818449839949608,
      "step": 1940
    },
    {
      "epoch": 0.7942164749007229,
      "grad_norm": 0.4233987033367157,
      "learning_rate": 2.13897475936933e-05,
      "loss": 1.7844,
      "mean_token_accuracy": 0.5720866233110428,
      "step": 1950
    },
    {
      "epoch": 0.7982893799002139,
      "grad_norm": 0.2641923427581787,
      "learning_rate": 2.0581071584992818e-05,
      "loss": 1.5874,
      "mean_token_accuracy": 0.5966846913099288,
      "step": 1960
    },
    {
      "epoch": 0.8023622848997047,
      "grad_norm": 0.27280351519584656,
      "learning_rate": 1.9786221643920844e-05,
      "loss": 1.6279,
      "mean_token_accuracy": 0.5751761384308338,
      "step": 1970
    },
    {
      "epoch": 0.8064351898991956,
      "grad_norm": 0.3823714256286621,
      "learning_rate": 1.9005336146167686e-05,
      "loss": 1.6269,
      "mean_token_accuracy": 0.5963201723992825,
      "step": 1980
    },
    {
      "epoch": 0.8105080948986865,
      "grad_norm": 0.25173816084861755,
      "learning_rate": 1.8238551036349028e-05,
      "loss": 1.5308,
      "mean_token_accuracy": 0.6112879984080791,
      "step": 1990
    },
    {
      "epoch": 0.8145809998981773,
      "grad_norm": 0.21256780624389648,
      "learning_rate": 1.7485999804339348e-05,
      "loss": 1.5568,
      "mean_token_accuracy": 0.5963364981114865,
      "step": 2000
    },
    {
      "epoch": 0.8186539048976683,
      "grad_norm": 0.2510949969291687,
      "learning_rate": 1.6747813462032615e-05,
      "loss": 1.6787,
      "mean_token_accuracy": 0.58960345312953,
      "step": 2010
    },
    {
      "epoch": 0.8227268098971592,
      "grad_norm": 0.255790650844574,
      "learning_rate": 1.6024120520534326e-05,
      "loss": 1.6416,
      "mean_token_accuracy": 0.5875880800187587,
      "step": 2020
    },
    {
      "epoch": 0.82679971489665,
      "grad_norm": 0.307492196559906,
      "learning_rate": 1.5315046967789082e-05,
      "loss": 1.69,
      "mean_token_accuracy": 0.5625761769711971,
      "step": 2030
    },
    {
      "epoch": 0.8308726198961409,
      "grad_norm": 0.2648999094963074,
      "learning_rate": 1.4620716246647203e-05,
      "loss": 1.6092,
      "mean_token_accuracy": 0.6106476083397865,
      "step": 2040
    },
    {
      "epoch": 0.8349455248956318,
      "grad_norm": 0.2488166093826294,
      "learning_rate": 1.394124923337462e-05,
      "loss": 1.6848,
      "mean_token_accuracy": 0.5697021905332804,
      "step": 2050
    },
    {
      "epoch": 0.8390184298951227,
      "grad_norm": 0.2427694946527481,
      "learning_rate": 1.3276764216609294e-05,
      "loss": 1.5843,
      "mean_token_accuracy": 0.6084981314837933,
      "step": 2060
    },
    {
      "epoch": 0.8430913348946136,
      "grad_norm": 0.2833966910839081,
      "learning_rate": 1.2627376876768593e-05,
      "loss": 1.5443,
      "mean_token_accuracy": 0.6015144042670727,
      "step": 2070
    },
    {
      "epoch": 0.8471642398941045,
      "grad_norm": 0.4057978689670563,
      "learning_rate": 1.1993200265910131e-05,
      "loss": 1.6073,
      "mean_token_accuracy": 0.5917512811720371,
      "step": 2080
    },
    {
      "epoch": 0.8512371448935954,
      "grad_norm": 0.25613030791282654,
      "learning_rate": 1.1374344788050829e-05,
      "loss": 1.8038,
      "mean_token_accuracy": 0.5568435616791249,
      "step": 2090
    },
    {
      "epoch": 0.8553100498930862,
      "grad_norm": 0.30181950330734253,
      "learning_rate": 1.0770918179946388e-05,
      "loss": 1.5022,
      "mean_token_accuracy": 0.6081097513437271,
      "step": 2100
    },
    {
      "epoch": 0.8593829548925771,
      "grad_norm": 0.23373402655124664,
      "learning_rate": 1.0183025492335408e-05,
      "loss": 1.7432,
      "mean_token_accuracy": 0.5653887689113617,
      "step": 2110
    },
    {
      "epoch": 0.863455859892068,
      "grad_norm": 0.2826649248600006,
      "learning_rate": 9.610769071651193e-06,
      "loss": 1.6706,
      "mean_token_accuracy": 0.5875243842601776,
      "step": 2120
    },
    {
      "epoch": 0.867528764891559,
      "grad_norm": 0.3047688603401184,
      "learning_rate": 9.05424854220408e-06,
      "loss": 1.5901,
      "mean_token_accuracy": 0.6013362683355808,
      "step": 2130
    },
    {
      "epoch": 0.8716016698910498,
      "grad_norm": 0.3211512863636017,
      "learning_rate": 8.513560788837916e-06,
      "loss": 1.6414,
      "mean_token_accuracy": 0.5845984369516373,
      "step": 2140
    },
    {
      "epoch": 0.8756745748905407,
      "grad_norm": 0.22475050389766693,
      "learning_rate": 7.988799940063297e-06,
      "loss": 1.6038,
      "mean_token_accuracy": 0.5835995152592659,
      "step": 2150
    },
    {
      "epoch": 0.8797474798900315,
      "grad_norm": 0.2239948809146881,
      "learning_rate": 7.480057351670688e-06,
      "loss": 1.6661,
      "mean_token_accuracy": 0.5898953646421432,
      "step": 2160
    },
    {
      "epoch": 0.8838203848895224,
      "grad_norm": 0.3669275641441345,
      "learning_rate": 6.987421590826282e-06,
      "loss": 1.6066,
      "mean_token_accuracy": 0.5877827815711498,
      "step": 2170
    },
    {
      "epoch": 0.8878932898890134,
      "grad_norm": 0.30003634095191956,
      "learning_rate": 6.510978420653335e-06,
      "loss": 1.6816,
      "mean_token_accuracy": 0.5926426865160466,
      "step": 2180
    },
    {
      "epoch": 0.8919661948885043,
      "grad_norm": 0.2707299590110779,
      "learning_rate": 6.050810785301597e-06,
      "loss": 1.7702,
      "mean_token_accuracy": 0.561020129173994,
      "step": 2190
    },
    {
      "epoch": 0.8960390998879951,
      "grad_norm": 0.3029952347278595,
      "learning_rate": 5.606998795507578e-06,
      "loss": 1.5417,
      "mean_token_accuracy": 0.598423033952713,
      "step": 2200
    },
    {
      "epoch": 0.900112004887486,
      "grad_norm": 0.27840766310691833,
      "learning_rate": 5.1796197146479985e-06,
      "loss": 1.5119,
      "mean_token_accuracy": 0.6152562454342843,
      "step": 2210
    },
    {
      "epoch": 0.9041849098869769,
      "grad_norm": 0.28235796093940735,
      "learning_rate": 4.768747945288987e-06,
      "loss": 1.5287,
      "mean_token_accuracy": 0.61318289488554,
      "step": 2220
    },
    {
      "epoch": 0.9082578148864677,
      "grad_norm": 0.21450947225093842,
      "learning_rate": 4.37445501623337e-06,
      "loss": 1.5842,
      "mean_token_accuracy": 0.6025399126112461,
      "step": 2230
    },
    {
      "epoch": 0.9123307198859587,
      "grad_norm": 0.29954469203948975,
      "learning_rate": 3.996809570068127e-06,
      "loss": 1.5514,
      "mean_token_accuracy": 0.6040661752223968,
      "step": 2240
    },
    {
      "epoch": 0.9164036248854496,
      "grad_norm": 0.34261876344680786,
      "learning_rate": 3.635877351214445e-06,
      "loss": 1.5493,
      "mean_token_accuracy": 0.5996488876640796,
      "step": 2250
    },
    {
      "epoch": 0.9204765298849404,
      "grad_norm": 0.24511079490184784,
      "learning_rate": 3.291721194482189e-06,
      "loss": 1.5494,
      "mean_token_accuracy": 0.6054005287587643,
      "step": 2260
    },
    {
      "epoch": 0.9245494348844313,
      "grad_norm": 0.21510252356529236,
      "learning_rate": 2.9644010141310017e-06,
      "loss": 1.6294,
      "mean_token_accuracy": 0.5961603626608849,
      "step": 2270
    },
    {
      "epoch": 0.9286223398839222,
      "grad_norm": 0.23636655509471893,
      "learning_rate": 2.65397379343979e-06,
      "loss": 1.7332,
      "mean_token_accuracy": 0.5859133303165436,
      "step": 2280
    },
    {
      "epoch": 0.932695244883413,
      "grad_norm": 0.25582408905029297,
      "learning_rate": 2.3604935747865377e-06,
      "loss": 1.6691,
      "mean_token_accuracy": 0.5889919593930244,
      "step": 2290
    },
    {
      "epoch": 0.936768149882904,
      "grad_norm": 0.3853449523448944,
      "learning_rate": 2.0840114502400086e-06,
      "loss": 1.5358,
      "mean_token_accuracy": 0.5844359740614891,
      "step": 2300
    },
    {
      "epoch": 0.9408410548823949,
      "grad_norm": 0.2177136093378067,
      "learning_rate": 1.8245755526650753e-06,
      "loss": 1.6318,
      "mean_token_accuracy": 0.5915890723466873,
      "step": 2310
    },
    {
      "epoch": 0.9449139598818858,
      "grad_norm": 0.23138591647148132,
      "learning_rate": 1.5822310473433411e-06,
      "loss": 1.5595,
      "mean_token_accuracy": 0.5974130786955356,
      "step": 2320
    },
    {
      "epoch": 0.9489868648813766,
      "grad_norm": 0.2235519289970398,
      "learning_rate": 1.357020124110231e-06,
      "loss": 1.7522,
      "mean_token_accuracy": 0.5713608346879482,
      "step": 2330
    },
    {
      "epoch": 0.9530597698808675,
      "grad_norm": 0.37900933623313904,
      "learning_rate": 1.1489819900101784e-06,
      "loss": 1.5307,
      "mean_token_accuracy": 0.6045880667865277,
      "step": 2340
    },
    {
      "epoch": 0.9571326748803585,
      "grad_norm": 0.2911360561847687,
      "learning_rate": 9.581528624710734e-07,
      "loss": 1.5633,
      "mean_token_accuracy": 0.5826431967318058,
      "step": 2350
    },
    {
      "epoch": 0.9612055798798493,
      "grad_norm": 0.25369352102279663,
      "learning_rate": 7.845659629990842e-07,
      "loss": 1.6927,
      "mean_token_accuracy": 0.5901580177247524,
      "step": 2360
    },
    {
      "epoch": 0.9652784848793402,
      "grad_norm": 0.32107028365135193,
      "learning_rate": 6.282515113952281e-07,
      "loss": 1.815,
      "mean_token_accuracy": 0.56534923017025,
      "step": 2370
    },
    {
      "epoch": 0.9693513898788311,
      "grad_norm": 0.3105465769767761,
      "learning_rate": 4.892367204943016e-07,
      "loss": 1.5694,
      "mean_token_accuracy": 0.5809950686991214,
      "step": 2380
    },
    {
      "epoch": 0.9734242948783219,
      "grad_norm": 0.2689298689365387,
      "learning_rate": 3.6754579142741495e-07,
      "loss": 1.6555,
      "mean_token_accuracy": 0.591179046779871,
      "step": 2390
    },
    {
      "epoch": 0.9774971998778128,
      "grad_norm": 0.44850870966911316,
      "learning_rate": 2.6319990940885107e-07,
      "loss": 1.7315,
      "mean_token_accuracy": 0.5772897489368916,
      "step": 2400
    },
    {
      "epoch": 0.9815701048773038,
      "grad_norm": 0.25496381521224976,
      "learning_rate": 1.762172400478601e-07,
      "loss": 1.5847,
      "mean_token_accuracy": 0.5798953503370285,
      "step": 2410
    },
    {
      "epoch": 0.9856430098767947,
      "grad_norm": 0.2383822500705719,
      "learning_rate": 1.0661292618624474e-07,
      "loss": 1.54,
      "mean_token_accuracy": 0.6138455606997013,
      "step": 2420
    },
    {
      "epoch": 0.9897159148762855,
      "grad_norm": 0.2854715585708618,
      "learning_rate": 5.439908526212456e-08,
      "loss": 1.4109,
      "mean_token_accuracy": 0.6151122771203518,
      "step": 2430
    },
    {
      "epoch": 0.9937888198757764,
      "grad_norm": 0.297370046377182,
      "learning_rate": 1.9584807200423438e-08,
      "loss": 1.5128,
      "mean_token_accuracy": 0.6013165354728699,
      "step": 2440
    },
    {
      "epoch": 0.9978617248752673,
      "grad_norm": 0.2563394010066986,
      "learning_rate": 2.176152830357658e-09,
      "loss": 1.6287,
      "mean_token_accuracy": 0.5945099242031574,
      "step": 2450
    }
  ],
  "logging_steps": 10,
  "max_steps": 2455,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.283473658609664e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}