CodeLlama-7B-QML / trainer_state.json

Upload 14 files (#1)

2690367 verified about 2 months ago

70.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 20,
	"global_step": 8786,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0022765430693491933,
	"grad_norm": 0.469247430562973,
	"learning_rate": 0.0002,
	"loss": 1.9469,
	"step": 20
	},
	{
	"epoch": 0.004553086138698387,
	"grad_norm": 0.6239348649978638,
	"learning_rate": 0.0002,
	"loss": 1.556,
	"step": 40
	},
	{
	"epoch": 0.006829629208047579,
	"grad_norm": 0.4587397277355194,
	"learning_rate": 0.0002,
	"loss": 1.4108,
	"step": 60
	},
	{
	"epoch": 0.009106172277396773,
	"grad_norm": 0.42919760942459106,
	"learning_rate": 0.0002,
	"loss": 1.3352,
	"step": 80
	},
	{
	"epoch": 0.011382715346745967,
	"grad_norm": 0.46492573618888855,
	"learning_rate": 0.0002,
	"loss": 1.3388,
	"step": 100
	},
	{
	"epoch": 0.013659258416095159,
	"grad_norm": 0.453070729970932,
	"learning_rate": 0.0002,
	"loss": 1.2295,
	"step": 120
	},
	{
	"epoch": 0.015935801485444354,
	"grad_norm": 0.4760678708553314,
	"learning_rate": 0.0002,
	"loss": 1.2493,
	"step": 140
	},
	{
	"epoch": 0.018212344554793546,
	"grad_norm": 0.4545675814151764,
	"learning_rate": 0.0002,
	"loss": 1.215,
	"step": 160
	},
	{
	"epoch": 0.020488887624142738,
	"grad_norm": 0.4772235155105591,
	"learning_rate": 0.0002,
	"loss": 1.2173,
	"step": 180
	},
	{
	"epoch": 0.022765430693491934,
	"grad_norm": 0.4403541088104248,
	"learning_rate": 0.0002,
	"loss": 1.1058,
	"step": 200
	},
	{
	"epoch": 0.025041973762841126,
	"grad_norm": 0.511401355266571,
	"learning_rate": 0.0002,
	"loss": 1.1049,
	"step": 220
	},
	{
	"epoch": 0.027318516832190318,
	"grad_norm": 0.3809013366699219,
	"learning_rate": 0.0002,
	"loss": 1.0498,
	"step": 240
	},
	{
	"epoch": 0.029595059901539513,
	"grad_norm": 0.3980010449886322,
	"learning_rate": 0.0002,
	"loss": 0.9842,
	"step": 260
	},
	{
	"epoch": 0.03187160297088871,
	"grad_norm": 0.5747793316841125,
	"learning_rate": 0.0002,
	"loss": 1.0988,
	"step": 280
	},
	{
	"epoch": 0.0341481460402379,
	"grad_norm": 0.46827971935272217,
	"learning_rate": 0.0002,
	"loss": 1.0367,
	"step": 300
	},
	{
	"epoch": 0.03642468910958709,
	"grad_norm": 0.4702209532260895,
	"learning_rate": 0.0002,
	"loss": 1.066,
	"step": 320
	},
	{
	"epoch": 0.038701232178936285,
	"grad_norm": 0.5084996223449707,
	"learning_rate": 0.0002,
	"loss": 1.0652,
	"step": 340
	},
	{
	"epoch": 0.040977775248285477,
	"grad_norm": 0.3944012522697449,
	"learning_rate": 0.0002,
	"loss": 0.9642,
	"step": 360
	},
	{
	"epoch": 0.04325431831763467,
	"grad_norm": 0.40287718176841736,
	"learning_rate": 0.0002,
	"loss": 0.9431,
	"step": 380
	},
	{
	"epoch": 0.04553086138698387,
	"grad_norm": 0.4629077613353729,
	"learning_rate": 0.0002,
	"loss": 0.9615,
	"step": 400
	},
	{
	"epoch": 0.04780740445633306,
	"grad_norm": 0.44827452301979065,
	"learning_rate": 0.0002,
	"loss": 0.9434,
	"step": 420
	},
	{
	"epoch": 0.05008394752568225,
	"grad_norm": 0.41644710302352905,
	"learning_rate": 0.0002,
	"loss": 0.9241,
	"step": 440
	},
	{
	"epoch": 0.05236049059503144,
	"grad_norm": 0.4760611057281494,
	"learning_rate": 0.0002,
	"loss": 0.8475,
	"step": 460
	},
	{
	"epoch": 0.054637033664380635,
	"grad_norm": 0.45987364649772644,
	"learning_rate": 0.0002,
	"loss": 0.898,
	"step": 480
	},
	{
	"epoch": 0.056913576733729834,
	"grad_norm": 0.4840068817138672,
	"learning_rate": 0.0002,
	"loss": 0.9611,
	"step": 500
	},
	{
	"epoch": 0.059190119803079026,
	"grad_norm": 0.40314286947250366,
	"learning_rate": 0.0002,
	"loss": 0.8884,
	"step": 520
	},
	{
	"epoch": 0.06146666287242822,
	"grad_norm": 0.5458106398582458,
	"learning_rate": 0.0002,
	"loss": 0.8939,
	"step": 540
	},
	{
	"epoch": 0.06374320594177742,
	"grad_norm": 0.5420896410942078,
	"learning_rate": 0.0002,
	"loss": 0.8265,
	"step": 560
	},
	{
	"epoch": 0.0660197490111266,
	"grad_norm": 0.5356529355049133,
	"learning_rate": 0.0002,
	"loss": 0.8432,
	"step": 580
	},
	{
	"epoch": 0.0682962920804758,
	"grad_norm": 0.5064826011657715,
	"learning_rate": 0.0002,
	"loss": 0.8272,
	"step": 600
	},
	{
	"epoch": 0.07057283514982499,
	"grad_norm": 0.4143005311489105,
	"learning_rate": 0.0002,
	"loss": 0.7854,
	"step": 620
	},
	{
	"epoch": 0.07284937821917419,
	"grad_norm": 0.3817225396633148,
	"learning_rate": 0.0002,
	"loss": 0.8219,
	"step": 640
	},
	{
	"epoch": 0.07512592128852338,
	"grad_norm": 0.5336936712265015,
	"learning_rate": 0.0002,
	"loss": 0.7977,
	"step": 660
	},
	{
	"epoch": 0.07740246435787257,
	"grad_norm": 0.5397001504898071,
	"learning_rate": 0.0002,
	"loss": 0.8117,
	"step": 680
	},
	{
	"epoch": 0.07967900742722177,
	"grad_norm": 0.4968530535697937,
	"learning_rate": 0.0002,
	"loss": 0.7527,
	"step": 700
	},
	{
	"epoch": 0.08195555049657095,
	"grad_norm": 0.4084935784339905,
	"learning_rate": 0.0002,
	"loss": 0.651,
	"step": 720
	},
	{
	"epoch": 0.08423209356592015,
	"grad_norm": 0.48406732082366943,
	"learning_rate": 0.0002,
	"loss": 0.7352,
	"step": 740
	},
	{
	"epoch": 0.08650863663526934,
	"grad_norm": 0.5246301293373108,
	"learning_rate": 0.0002,
	"loss": 0.7785,
	"step": 760
	},
	{
	"epoch": 0.08878517970461854,
	"grad_norm": 0.5729619264602661,
	"learning_rate": 0.0002,
	"loss": 0.7646,
	"step": 780
	},
	{
	"epoch": 0.09106172277396773,
	"grad_norm": 0.5675190687179565,
	"learning_rate": 0.0002,
	"loss": 0.7784,
	"step": 800
	},
	{
	"epoch": 0.09333826584331692,
	"grad_norm": 0.4682878255844116,
	"learning_rate": 0.0002,
	"loss": 0.7284,
	"step": 820
	},
	{
	"epoch": 0.09561480891266612,
	"grad_norm": 0.5388545393943787,
	"learning_rate": 0.0002,
	"loss": 0.6959,
	"step": 840
	},
	{
	"epoch": 0.0978913519820153,
	"grad_norm": 0.48806509375572205,
	"learning_rate": 0.0002,
	"loss": 0.7585,
	"step": 860
	},
	{
	"epoch": 0.1001678950513645,
	"grad_norm": 0.4149261713027954,
	"learning_rate": 0.0002,
	"loss": 0.6978,
	"step": 880
	},
	{
	"epoch": 0.1024444381207137,
	"grad_norm": 0.4971105754375458,
	"learning_rate": 0.0002,
	"loss": 0.7103,
	"step": 900
	},
	{
	"epoch": 0.10472098119006289,
	"grad_norm": 0.5066735744476318,
	"learning_rate": 0.0002,
	"loss": 0.6854,
	"step": 920
	},
	{
	"epoch": 0.10699752425941209,
	"grad_norm": 0.4922661781311035,
	"learning_rate": 0.0002,
	"loss": 0.6231,
	"step": 940
	},
	{
	"epoch": 0.10927406732876127,
	"grad_norm": 0.5949555039405823,
	"learning_rate": 0.0002,
	"loss": 0.6813,
	"step": 960
	},
	{
	"epoch": 0.11155061039811047,
	"grad_norm": 0.581446647644043,
	"learning_rate": 0.0002,
	"loss": 0.6174,
	"step": 980
	},
	{
	"epoch": 0.11382715346745967,
	"grad_norm": 0.6152529716491699,
	"learning_rate": 0.0002,
	"loss": 0.6405,
	"step": 1000
	},
	{
	"epoch": 0.11610369653680885,
	"grad_norm": 0.5986836552619934,
	"learning_rate": 0.0002,
	"loss": 0.5776,
	"step": 1020
	},
	{
	"epoch": 0.11838023960615805,
	"grad_norm": 0.4255094528198242,
	"learning_rate": 0.0002,
	"loss": 0.6576,
	"step": 1040
	},
	{
	"epoch": 0.12065678267550724,
	"grad_norm": 0.4563849866390228,
	"learning_rate": 0.0002,
	"loss": 0.6647,
	"step": 1060
	},
	{
	"epoch": 0.12293332574485644,
	"grad_norm": 0.593227744102478,
	"learning_rate": 0.0002,
	"loss": 0.6043,
	"step": 1080
	},
	{
	"epoch": 0.12520986881420562,
	"grad_norm": 0.47059598565101624,
	"learning_rate": 0.0002,
	"loss": 0.591,
	"step": 1100
	},
	{
	"epoch": 0.12748641188355483,
	"grad_norm": 0.5013225674629211,
	"learning_rate": 0.0002,
	"loss": 0.5947,
	"step": 1120
	},
	{
	"epoch": 0.12976295495290402,
	"grad_norm": 0.46772757172584534,
	"learning_rate": 0.0002,
	"loss": 0.6292,
	"step": 1140
	},
	{
	"epoch": 0.1320394980222532,
	"grad_norm": 0.5844313502311707,
	"learning_rate": 0.0002,
	"loss": 0.6128,
	"step": 1160
	},
	{
	"epoch": 0.1343160410916024,
	"grad_norm": 0.5295489430427551,
	"learning_rate": 0.0002,
	"loss": 0.6064,
	"step": 1180
	},
	{
	"epoch": 0.1365925841609516,
	"grad_norm": 0.4482004642486572,
	"learning_rate": 0.0002,
	"loss": 0.5899,
	"step": 1200
	},
	{
	"epoch": 0.1388691272303008,
	"grad_norm": 0.6281692981719971,
	"learning_rate": 0.0002,
	"loss": 0.6109,
	"step": 1220
	},
	{
	"epoch": 0.14114567029964997,
	"grad_norm": 0.4718242585659027,
	"learning_rate": 0.0002,
	"loss": 0.5857,
	"step": 1240
	},
	{
	"epoch": 0.14342221336899919,
	"grad_norm": 0.5219341516494751,
	"learning_rate": 0.0002,
	"loss": 0.5581,
	"step": 1260
	},
	{
	"epoch": 0.14569875643834837,
	"grad_norm": 0.47050580382347107,
	"learning_rate": 0.0002,
	"loss": 0.6368,
	"step": 1280
	},
	{
	"epoch": 0.14797529950769756,
	"grad_norm": 0.5425338745117188,
	"learning_rate": 0.0002,
	"loss": 0.5626,
	"step": 1300
	},
	{
	"epoch": 0.15025184257704677,
	"grad_norm": 0.4944934844970703,
	"learning_rate": 0.0002,
	"loss": 0.5337,
	"step": 1320
	},
	{
	"epoch": 0.15252838564639595,
	"grad_norm": 0.5921599864959717,
	"learning_rate": 0.0002,
	"loss": 0.5672,
	"step": 1340
	},
	{
	"epoch": 0.15480492871574514,
	"grad_norm": 0.4866751730442047,
	"learning_rate": 0.0002,
	"loss": 0.5305,
	"step": 1360
	},
	{
	"epoch": 0.15708147178509432,
	"grad_norm": 0.62166827917099,
	"learning_rate": 0.0002,
	"loss": 0.5737,
	"step": 1380
	},
	{
	"epoch": 0.15935801485444354,
	"grad_norm": 0.5006982684135437,
	"learning_rate": 0.0002,
	"loss": 0.5542,
	"step": 1400
	},
	{
	"epoch": 0.16163455792379272,
	"grad_norm": 0.6090095043182373,
	"learning_rate": 0.0002,
	"loss": 0.5215,
	"step": 1420
	},
	{
	"epoch": 0.1639111009931419,
	"grad_norm": 0.4260309636592865,
	"learning_rate": 0.0002,
	"loss": 0.5535,
	"step": 1440
	},
	{
	"epoch": 0.16618764406249112,
	"grad_norm": 0.48657718300819397,
	"learning_rate": 0.0002,
	"loss": 0.5441,
	"step": 1460
	},
	{
	"epoch": 0.1684641871318403,
	"grad_norm": 0.43275007605552673,
	"learning_rate": 0.0002,
	"loss": 0.5161,
	"step": 1480
	},
	{
	"epoch": 0.1707407302011895,
	"grad_norm": 0.4225006699562073,
	"learning_rate": 0.0002,
	"loss": 0.512,
	"step": 1500
	},
	{
	"epoch": 0.17301727327053867,
	"grad_norm": 0.5176346302032471,
	"learning_rate": 0.0002,
	"loss": 0.5384,
	"step": 1520
	},
	{
	"epoch": 0.1752938163398879,
	"grad_norm": 0.6492679715156555,
	"learning_rate": 0.0002,
	"loss": 0.4981,
	"step": 1540
	},
	{
	"epoch": 0.17757035940923707,
	"grad_norm": 0.5511758327484131,
	"learning_rate": 0.0002,
	"loss": 0.5289,
	"step": 1560
	},
	{
	"epoch": 0.17984690247858626,
	"grad_norm": 0.5211341977119446,
	"learning_rate": 0.0002,
	"loss": 0.5002,
	"step": 1580
	},
	{
	"epoch": 0.18212344554793547,
	"grad_norm": 0.5488260984420776,
	"learning_rate": 0.0002,
	"loss": 0.5178,
	"step": 1600
	},
	{
	"epoch": 0.18439998861728465,
	"grad_norm": 0.6779264211654663,
	"learning_rate": 0.0002,
	"loss": 0.5155,
	"step": 1620
	},
	{
	"epoch": 0.18667653168663384,
	"grad_norm": 0.502919614315033,
	"learning_rate": 0.0002,
	"loss": 0.4923,
	"step": 1640
	},
	{
	"epoch": 0.18895307475598305,
	"grad_norm": 0.4989205300807953,
	"learning_rate": 0.0002,
	"loss": 0.4825,
	"step": 1660
	},
	{
	"epoch": 0.19122961782533224,
	"grad_norm": 0.5155315399169922,
	"learning_rate": 0.0002,
	"loss": 0.4796,
	"step": 1680
	},
	{
	"epoch": 0.19350616089468142,
	"grad_norm": 0.5648865699768066,
	"learning_rate": 0.0002,
	"loss": 0.4985,
	"step": 1700
	},
	{
	"epoch": 0.1957827039640306,
	"grad_norm": 0.606176495552063,
	"learning_rate": 0.0002,
	"loss": 0.4819,
	"step": 1720
	},
	{
	"epoch": 0.19805924703337982,
	"grad_norm": 0.5440786480903625,
	"learning_rate": 0.0002,
	"loss": 0.5213,
	"step": 1740
	},
	{
	"epoch": 0.200335790102729,
	"grad_norm": 0.43152502179145813,
	"learning_rate": 0.0002,
	"loss": 0.4429,
	"step": 1760
	},
	{
	"epoch": 0.2026123331720782,
	"grad_norm": 0.5701313614845276,
	"learning_rate": 0.0002,
	"loss": 0.4486,
	"step": 1780
	},
	{
	"epoch": 0.2048888762414274,
	"grad_norm": 0.565666913986206,
	"learning_rate": 0.0002,
	"loss": 0.4561,
	"step": 1800
	},
	{
	"epoch": 0.2071654193107766,
	"grad_norm": 0.5725598931312561,
	"learning_rate": 0.0002,
	"loss": 0.4757,
	"step": 1820
	},
	{
	"epoch": 0.20944196238012577,
	"grad_norm": 0.4642520248889923,
	"learning_rate": 0.0002,
	"loss": 0.438,
	"step": 1840
	},
	{
	"epoch": 0.21171850544947496,
	"grad_norm": 0.6077229976654053,
	"learning_rate": 0.0002,
	"loss": 0.4295,
	"step": 1860
	},
	{
	"epoch": 0.21399504851882417,
	"grad_norm": 0.6314090490341187,
	"learning_rate": 0.0002,
	"loss": 0.449,
	"step": 1880
	},
	{
	"epoch": 0.21627159158817336,
	"grad_norm": 0.4416756331920624,
	"learning_rate": 0.0002,
	"loss": 0.4554,
	"step": 1900
	},
	{
	"epoch": 0.21854813465752254,
	"grad_norm": 0.5278882384300232,
	"learning_rate": 0.0002,
	"loss": 0.4554,
	"step": 1920
	},
	{
	"epoch": 0.22082467772687175,
	"grad_norm": 0.45619043707847595,
	"learning_rate": 0.0002,
	"loss": 0.4868,
	"step": 1940
	},
	{
	"epoch": 0.22310122079622094,
	"grad_norm": 0.5881581902503967,
	"learning_rate": 0.0002,
	"loss": 0.4672,
	"step": 1960
	},
	{
	"epoch": 0.22537776386557012,
	"grad_norm": 0.5379284024238586,
	"learning_rate": 0.0002,
	"loss": 0.4531,
	"step": 1980
	},
	{
	"epoch": 0.22765430693491934,
	"grad_norm": 0.5562624931335449,
	"learning_rate": 0.0002,
	"loss": 0.464,
	"step": 2000
	},
	{
	"epoch": 0.22993085000426852,
	"grad_norm": 0.554499626159668,
	"learning_rate": 0.0002,
	"loss": 0.446,
	"step": 2020
	},
	{
	"epoch": 0.2322073930736177,
	"grad_norm": 0.509219229221344,
	"learning_rate": 0.0002,
	"loss": 0.4417,
	"step": 2040
	},
	{
	"epoch": 0.2344839361429669,
	"grad_norm": 0.5206849575042725,
	"learning_rate": 0.0002,
	"loss": 0.4118,
	"step": 2060
	},
	{
	"epoch": 0.2367604792123161,
	"grad_norm": 0.548729658126831,
	"learning_rate": 0.0002,
	"loss": 0.4067,
	"step": 2080
	},
	{
	"epoch": 0.2390370222816653,
	"grad_norm": 0.4220084846019745,
	"learning_rate": 0.0002,
	"loss": 0.428,
	"step": 2100
	},
	{
	"epoch": 0.24131356535101448,
	"grad_norm": 0.5507292747497559,
	"learning_rate": 0.0002,
	"loss": 0.4176,
	"step": 2120
	},
	{
	"epoch": 0.2435901084203637,
	"grad_norm": 0.5605701208114624,
	"learning_rate": 0.0002,
	"loss": 0.4661,
	"step": 2140
	},
	{
	"epoch": 0.24586665148971287,
	"grad_norm": 0.43142881989479065,
	"learning_rate": 0.0002,
	"loss": 0.4197,
	"step": 2160
	},
	{
	"epoch": 0.24814319455906206,
	"grad_norm": 0.47790080308914185,
	"learning_rate": 0.0002,
	"loss": 0.4568,
	"step": 2180
	},
	{
	"epoch": 0.25041973762841124,
	"grad_norm": 0.6048968434333801,
	"learning_rate": 0.0002,
	"loss": 0.4199,
	"step": 2200
	},
	{
	"epoch": 0.25269628069776046,
	"grad_norm": 0.4925907850265503,
	"learning_rate": 0.0002,
	"loss": 0.4325,
	"step": 2220
	},
	{
	"epoch": 0.25497282376710967,
	"grad_norm": 0.5463051199913025,
	"learning_rate": 0.0002,
	"loss": 0.4549,
	"step": 2240
	},
	{
	"epoch": 0.2572493668364588,
	"grad_norm": 0.4631319046020508,
	"learning_rate": 0.0002,
	"loss": 0.3977,
	"step": 2260
	},
	{
	"epoch": 0.25952590990580804,
	"grad_norm": 0.4965234398841858,
	"learning_rate": 0.0002,
	"loss": 0.4285,
	"step": 2280
	},
	{
	"epoch": 0.2618024529751572,
	"grad_norm": 0.5436238646507263,
	"learning_rate": 0.0002,
	"loss": 0.4039,
	"step": 2300
	},
	{
	"epoch": 0.2640789960445064,
	"grad_norm": 0.5218191742897034,
	"learning_rate": 0.0002,
	"loss": 0.4092,
	"step": 2320
	},
	{
	"epoch": 0.2663555391138556,
	"grad_norm": 0.5417261719703674,
	"learning_rate": 0.0002,
	"loss": 0.3825,
	"step": 2340
	},
	{
	"epoch": 0.2686320821832048,
	"grad_norm": 0.6126281023025513,
	"learning_rate": 0.0002,
	"loss": 0.4391,
	"step": 2360
	},
	{
	"epoch": 0.270908625252554,
	"grad_norm": 0.4734433889389038,
	"learning_rate": 0.0002,
	"loss": 0.4151,
	"step": 2380
	},
	{
	"epoch": 0.2731851683219032,
	"grad_norm": 0.4501429796218872,
	"learning_rate": 0.0002,
	"loss": 0.4178,
	"step": 2400
	},
	{
	"epoch": 0.27546171139125236,
	"grad_norm": 0.5258509516716003,
	"learning_rate": 0.0002,
	"loss": 0.4007,
	"step": 2420
	},
	{
	"epoch": 0.2777382544606016,
	"grad_norm": 0.47874951362609863,
	"learning_rate": 0.0002,
	"loss": 0.4245,
	"step": 2440
	},
	{
	"epoch": 0.2800147975299508,
	"grad_norm": 0.528533399105072,
	"learning_rate": 0.0002,
	"loss": 0.3794,
	"step": 2460
	},
	{
	"epoch": 0.28229134059929994,
	"grad_norm": 0.46465063095092773,
	"learning_rate": 0.0002,
	"loss": 0.4019,
	"step": 2480
	},
	{
	"epoch": 0.28456788366864916,
	"grad_norm": 0.5217177867889404,
	"learning_rate": 0.0002,
	"loss": 0.4104,
	"step": 2500
	},
	{
	"epoch": 0.28684442673799837,
	"grad_norm": 0.510036289691925,
	"learning_rate": 0.0002,
	"loss": 0.389,
	"step": 2520
	},
	{
	"epoch": 0.2891209698073475,
	"grad_norm": 0.6968228220939636,
	"learning_rate": 0.0002,
	"loss": 0.4152,
	"step": 2540
	},
	{
	"epoch": 0.29139751287669674,
	"grad_norm": 0.4529867470264435,
	"learning_rate": 0.0002,
	"loss": 0.3987,
	"step": 2560
	},
	{
	"epoch": 0.29367405594604595,
	"grad_norm": 0.5680263638496399,
	"learning_rate": 0.0002,
	"loss": 0.3828,
	"step": 2580
	},
	{
	"epoch": 0.2959505990153951,
	"grad_norm": 0.4892405867576599,
	"learning_rate": 0.0002,
	"loss": 0.4006,
	"step": 2600
	},
	{
	"epoch": 0.2982271420847443,
	"grad_norm": 0.47588276863098145,
	"learning_rate": 0.0002,
	"loss": 0.4197,
	"step": 2620
	},
	{
	"epoch": 0.30050368515409354,
	"grad_norm": 0.5624070167541504,
	"learning_rate": 0.0002,
	"loss": 0.3997,
	"step": 2640
	},
	{
	"epoch": 0.3027802282234427,
	"grad_norm": 0.5434039831161499,
	"learning_rate": 0.0002,
	"loss": 0.3977,
	"step": 2660
	},
	{
	"epoch": 0.3050567712927919,
	"grad_norm": 0.5572277903556824,
	"learning_rate": 0.0002,
	"loss": 0.3966,
	"step": 2680
	},
	{
	"epoch": 0.30733331436214106,
	"grad_norm": 0.5533374547958374,
	"learning_rate": 0.0002,
	"loss": 0.3803,
	"step": 2700
	},
	{
	"epoch": 0.3096098574314903,
	"grad_norm": 0.40596967935562134,
	"learning_rate": 0.0002,
	"loss": 0.3682,
	"step": 2720
	},
	{
	"epoch": 0.3118864005008395,
	"grad_norm": 0.4737823009490967,
	"learning_rate": 0.0002,
	"loss": 0.3761,
	"step": 2740
	},
	{
	"epoch": 0.31416294357018865,
	"grad_norm": 0.4295174777507782,
	"learning_rate": 0.0002,
	"loss": 0.4035,
	"step": 2760
	},
	{
	"epoch": 0.31643948663953786,
	"grad_norm": 0.5348454713821411,
	"learning_rate": 0.0002,
	"loss": 0.404,
	"step": 2780
	},
	{
	"epoch": 0.31871602970888707,
	"grad_norm": 0.4819965362548828,
	"learning_rate": 0.0002,
	"loss": 0.3929,
	"step": 2800
	},
	{
	"epoch": 0.32099257277823623,
	"grad_norm": 0.5920088291168213,
	"learning_rate": 0.0002,
	"loss": 0.3798,
	"step": 2820
	},
	{
	"epoch": 0.32326911584758544,
	"grad_norm": 0.4936531186103821,
	"learning_rate": 0.0002,
	"loss": 0.3995,
	"step": 2840
	},
	{
	"epoch": 0.32554565891693465,
	"grad_norm": 0.5252315998077393,
	"learning_rate": 0.0002,
	"loss": 0.3842,
	"step": 2860
	},
	{
	"epoch": 0.3278222019862838,
	"grad_norm": 0.5818414688110352,
	"learning_rate": 0.0002,
	"loss": 0.3533,
	"step": 2880
	},
	{
	"epoch": 0.330098745055633,
	"grad_norm": 0.44053876399993896,
	"learning_rate": 0.0002,
	"loss": 0.3402,
	"step": 2900
	},
	{
	"epoch": 0.33237528812498224,
	"grad_norm": 0.5421345233917236,
	"learning_rate": 0.0002,
	"loss": 0.3542,
	"step": 2920
	},
	{
	"epoch": 0.3346518311943314,
	"grad_norm": 0.4642751216888428,
	"learning_rate": 0.0002,
	"loss": 0.3755,
	"step": 2940
	},
	{
	"epoch": 0.3369283742636806,
	"grad_norm": 0.5137833952903748,
	"learning_rate": 0.0002,
	"loss": 0.3602,
	"step": 2960
	},
	{
	"epoch": 0.3392049173330298,
	"grad_norm": 0.5032792687416077,
	"learning_rate": 0.0002,
	"loss": 0.3451,
	"step": 2980
	},
	{
	"epoch": 0.341481460402379,
	"grad_norm": 0.4932720363140106,
	"learning_rate": 0.0002,
	"loss": 0.384,
	"step": 3000
	},
	{
	"epoch": 0.3437580034717282,
	"grad_norm": 0.49986231327056885,
	"learning_rate": 0.0002,
	"loss": 0.3826,
	"step": 3020
	},
	{
	"epoch": 0.34603454654107735,
	"grad_norm": 0.6325618624687195,
	"learning_rate": 0.0002,
	"loss": 0.3582,
	"step": 3040
	},
	{
	"epoch": 0.34831108961042656,
	"grad_norm": 0.5402369499206543,
	"learning_rate": 0.0002,
	"loss": 0.3706,
	"step": 3060
	},
	{
	"epoch": 0.3505876326797758,
	"grad_norm": 0.4967012107372284,
	"learning_rate": 0.0002,
	"loss": 0.3456,
	"step": 3080
	},
	{
	"epoch": 0.35286417574912493,
	"grad_norm": 0.4491735100746155,
	"learning_rate": 0.0002,
	"loss": 0.347,
	"step": 3100
	},
	{
	"epoch": 0.35514071881847414,
	"grad_norm": 0.9062516093254089,
	"learning_rate": 0.0002,
	"loss": 0.3617,
	"step": 3120
	},
	{
	"epoch": 0.35741726188782336,
	"grad_norm": 0.5253359079360962,
	"learning_rate": 0.0002,
	"loss": 0.3512,
	"step": 3140
	},
	{
	"epoch": 0.3596938049571725,
	"grad_norm": 0.4836867153644562,
	"learning_rate": 0.0002,
	"loss": 0.3585,
	"step": 3160
	},
	{
	"epoch": 0.3619703480265217,
	"grad_norm": 0.49537473917007446,
	"learning_rate": 0.0002,
	"loss": 0.364,
	"step": 3180
	},
	{
	"epoch": 0.36424689109587094,
	"grad_norm": 0.6098095178604126,
	"learning_rate": 0.0002,
	"loss": 0.3455,
	"step": 3200
	},
	{
	"epoch": 0.3665234341652201,
	"grad_norm": 0.5926884412765503,
	"learning_rate": 0.0002,
	"loss": 0.3406,
	"step": 3220
	},
	{
	"epoch": 0.3687999772345693,
	"grad_norm": 0.5868669152259827,
	"learning_rate": 0.0002,
	"loss": 0.3643,
	"step": 3240
	},
	{
	"epoch": 0.3710765203039185,
	"grad_norm": 0.42670106887817383,
	"learning_rate": 0.0002,
	"loss": 0.344,
	"step": 3260
	},
	{
	"epoch": 0.3733530633732677,
	"grad_norm": 0.5992838740348816,
	"learning_rate": 0.0002,
	"loss": 0.3588,
	"step": 3280
	},
	{
	"epoch": 0.3756296064426169,
	"grad_norm": 0.4388341009616852,
	"learning_rate": 0.0002,
	"loss": 0.3375,
	"step": 3300
	},
	{
	"epoch": 0.3779061495119661,
	"grad_norm": 0.596488893032074,
	"learning_rate": 0.0002,
	"loss": 0.3425,
	"step": 3320
	},
	{
	"epoch": 0.38018269258131526,
	"grad_norm": 0.4572538137435913,
	"learning_rate": 0.0002,
	"loss": 0.3711,
	"step": 3340
	},
	{
	"epoch": 0.3824592356506645,
	"grad_norm": 0.5661656856536865,
	"learning_rate": 0.0002,
	"loss": 0.3415,
	"step": 3360
	},
	{
	"epoch": 0.38473577872001363,
	"grad_norm": 0.45082923769950867,
	"learning_rate": 0.0002,
	"loss": 0.3495,
	"step": 3380
	},
	{
	"epoch": 0.38701232178936285,
	"grad_norm": 0.4995211660861969,
	"learning_rate": 0.0002,
	"loss": 0.3311,
	"step": 3400
	},
	{
	"epoch": 0.38928886485871206,
	"grad_norm": 0.5004004240036011,
	"learning_rate": 0.0002,
	"loss": 0.3506,
	"step": 3420
	},
	{
	"epoch": 0.3915654079280612,
	"grad_norm": 0.5676460266113281,
	"learning_rate": 0.0002,
	"loss": 0.3383,
	"step": 3440
	},
	{
	"epoch": 0.39384195099741043,
	"grad_norm": 0.4805515706539154,
	"learning_rate": 0.0002,
	"loss": 0.3382,
	"step": 3460
	},
	{
	"epoch": 0.39611849406675964,
	"grad_norm": 0.47675764560699463,
	"learning_rate": 0.0002,
	"loss": 0.3021,
	"step": 3480
	},
	{
	"epoch": 0.3983950371361088,
	"grad_norm": 0.6285260915756226,
	"learning_rate": 0.0002,
	"loss": 0.3467,
	"step": 3500
	},
	{
	"epoch": 0.400671580205458,
	"grad_norm": 0.5657575130462646,
	"learning_rate": 0.0002,
	"loss": 0.3382,
	"step": 3520
	},
	{
	"epoch": 0.4029481232748072,
	"grad_norm": 0.6148316860198975,
	"learning_rate": 0.0002,
	"loss": 0.3396,
	"step": 3540
	},
	{
	"epoch": 0.4052246663441564,
	"grad_norm": 0.5819992423057556,
	"learning_rate": 0.0002,
	"loss": 0.3373,
	"step": 3560
	},
	{
	"epoch": 0.4075012094135056,
	"grad_norm": 0.6080338954925537,
	"learning_rate": 0.0002,
	"loss": 0.3463,
	"step": 3580
	},
	{
	"epoch": 0.4097777524828548,
	"grad_norm": 0.6103864312171936,
	"learning_rate": 0.0002,
	"loss": 0.3441,
	"step": 3600
	},
	{
	"epoch": 0.41205429555220396,
	"grad_norm": 0.5234800577163696,
	"learning_rate": 0.0002,
	"loss": 0.3272,
	"step": 3620
	},
	{
	"epoch": 0.4143308386215532,
	"grad_norm": 0.5393822193145752,
	"learning_rate": 0.0002,
	"loss": 0.3308,
	"step": 3640
	},
	{
	"epoch": 0.4166073816909024,
	"grad_norm": 0.4853431284427643,
	"learning_rate": 0.0002,
	"loss": 0.3152,
	"step": 3660
	},
	{
	"epoch": 0.41888392476025155,
	"grad_norm": 0.5507264733314514,
	"learning_rate": 0.0002,
	"loss": 0.3229,
	"step": 3680
	},
	{
	"epoch": 0.42116046782960076,
	"grad_norm": 0.44306129217147827,
	"learning_rate": 0.0002,
	"loss": 0.3389,
	"step": 3700
	},
	{
	"epoch": 0.4234370108989499,
	"grad_norm": 0.4574294984340668,
	"learning_rate": 0.0002,
	"loss": 0.3516,
	"step": 3720
	},
	{
	"epoch": 0.42571355396829913,
	"grad_norm": 0.5367994904518127,
	"learning_rate": 0.0002,
	"loss": 0.3576,
	"step": 3740
	},
	{
	"epoch": 0.42799009703764834,
	"grad_norm": 0.5044491291046143,
	"learning_rate": 0.0002,
	"loss": 0.3449,
	"step": 3760
	},
	{
	"epoch": 0.4302666401069975,
	"grad_norm": 0.41715556383132935,
	"learning_rate": 0.0002,
	"loss": 0.3128,
	"step": 3780
	},
	{
	"epoch": 0.4325431831763467,
	"grad_norm": 0.4355817437171936,
	"learning_rate": 0.0002,
	"loss": 0.3131,
	"step": 3800
	},
	{
	"epoch": 0.4348197262456959,
	"grad_norm": 0.5237382650375366,
	"learning_rate": 0.0002,
	"loss": 0.3281,
	"step": 3820
	},
	{
	"epoch": 0.4370962693150451,
	"grad_norm": 0.6210081577301025,
	"learning_rate": 0.0002,
	"loss": 0.3195,
	"step": 3840
	},
	{
	"epoch": 0.4393728123843943,
	"grad_norm": 0.5145352482795715,
	"learning_rate": 0.0002,
	"loss": 0.3107,
	"step": 3860
	},
	{
	"epoch": 0.4416493554537435,
	"grad_norm": 0.5554608106613159,
	"learning_rate": 0.0002,
	"loss": 0.3418,
	"step": 3880
	},
	{
	"epoch": 0.44392589852309267,
	"grad_norm": 0.4971628487110138,
	"learning_rate": 0.0002,
	"loss": 0.3293,
	"step": 3900
	},
	{
	"epoch": 0.4462024415924419,
	"grad_norm": 0.49732130765914917,
	"learning_rate": 0.0002,
	"loss": 0.3138,
	"step": 3920
	},
	{
	"epoch": 0.4484789846617911,
	"grad_norm": 0.5883257985115051,
	"learning_rate": 0.0002,
	"loss": 0.3357,
	"step": 3940
	},
	{
	"epoch": 0.45075552773114025,
	"grad_norm": 0.5349528193473816,
	"learning_rate": 0.0002,
	"loss": 0.3381,
	"step": 3960
	},
	{
	"epoch": 0.45303207080048946,
	"grad_norm": 0.5360047221183777,
	"learning_rate": 0.0002,
	"loss": 0.3116,
	"step": 3980
	},
	{
	"epoch": 0.4553086138698387,
	"grad_norm": 0.4889732003211975,
	"learning_rate": 0.0002,
	"loss": 0.3154,
	"step": 4000
	},
	{
	"epoch": 0.45758515693918783,
	"grad_norm": 0.4912421703338623,
	"learning_rate": 0.0002,
	"loss": 0.3054,
	"step": 4020
	},
	{
	"epoch": 0.45986170000853704,
	"grad_norm": 0.4449983835220337,
	"learning_rate": 0.0002,
	"loss": 0.3079,
	"step": 4040
	},
	{
	"epoch": 0.46213824307788626,
	"grad_norm": 0.4488675892353058,
	"learning_rate": 0.0002,
	"loss": 0.3027,
	"step": 4060
	},
	{
	"epoch": 0.4644147861472354,
	"grad_norm": 0.5412561893463135,
	"learning_rate": 0.0002,
	"loss": 0.2932,
	"step": 4080
	},
	{
	"epoch": 0.4666913292165846,
	"grad_norm": 0.41218650341033936,
	"learning_rate": 0.0002,
	"loss": 0.3087,
	"step": 4100
	},
	{
	"epoch": 0.4689678722859338,
	"grad_norm": 0.5233949422836304,
	"learning_rate": 0.0002,
	"loss": 0.3157,
	"step": 4120
	},
	{
	"epoch": 0.471244415355283,
	"grad_norm": 0.5676075220108032,
	"learning_rate": 0.0002,
	"loss": 0.3267,
	"step": 4140
	},
	{
	"epoch": 0.4735209584246322,
	"grad_norm": 0.5336834788322449,
	"learning_rate": 0.0002,
	"loss": 0.3185,
	"step": 4160
	},
	{
	"epoch": 0.47579750149398137,
	"grad_norm": 0.5505925416946411,
	"learning_rate": 0.0002,
	"loss": 0.3116,
	"step": 4180
	},
	{
	"epoch": 0.4780740445633306,
	"grad_norm": 0.5440223813056946,
	"learning_rate": 0.0002,
	"loss": 0.3234,
	"step": 4200
	},
	{
	"epoch": 0.4803505876326798,
	"grad_norm": 0.46334293484687805,
	"learning_rate": 0.0002,
	"loss": 0.3209,
	"step": 4220
	},
	{
	"epoch": 0.48262713070202895,
	"grad_norm": 0.452364444732666,
	"learning_rate": 0.0002,
	"loss": 0.3056,
	"step": 4240
	},
	{
	"epoch": 0.48490367377137816,
	"grad_norm": 0.5037956833839417,
	"learning_rate": 0.0002,
	"loss": 0.3141,
	"step": 4260
	},
	{
	"epoch": 0.4871802168407274,
	"grad_norm": 0.4308939278125763,
	"learning_rate": 0.0002,
	"loss": 0.2948,
	"step": 4280
	},
	{
	"epoch": 0.48945675991007653,
	"grad_norm": 0.45019960403442383,
	"learning_rate": 0.0002,
	"loss": 0.3142,
	"step": 4300
	},
	{
	"epoch": 0.49173330297942575,
	"grad_norm": 0.4351404011249542,
	"learning_rate": 0.0002,
	"loss": 0.31,
	"step": 4320
	},
	{
	"epoch": 0.49400984604877496,
	"grad_norm": 0.38306841254234314,
	"learning_rate": 0.0002,
	"loss": 0.2889,
	"step": 4340
	},
	{
	"epoch": 0.4962863891181241,
	"grad_norm": 0.545360803604126,
	"learning_rate": 0.0002,
	"loss": 0.311,
	"step": 4360
	},
	{
	"epoch": 0.49856293218747333,
	"grad_norm": 0.44942232966423035,
	"learning_rate": 0.0002,
	"loss": 0.2899,
	"step": 4380
	},
	{
	"epoch": 0.5008394752568225,
	"grad_norm": 0.46564239263534546,
	"learning_rate": 0.0002,
	"loss": 0.3013,
	"step": 4400
	},
	{
	"epoch": 0.5031160183261717,
	"grad_norm": 0.5398554801940918,
	"learning_rate": 0.0002,
	"loss": 0.3104,
	"step": 4420
	},
	{
	"epoch": 0.5053925613955209,
	"grad_norm": 0.47367504239082336,
	"learning_rate": 0.0002,
	"loss": 0.2945,
	"step": 4440
	},
	{
	"epoch": 0.5076691044648701,
	"grad_norm": 0.45659711956977844,
	"learning_rate": 0.0002,
	"loss": 0.304,
	"step": 4460
	},
	{
	"epoch": 0.5099456475342193,
	"grad_norm": 0.4942033290863037,
	"learning_rate": 0.0002,
	"loss": 0.2969,
	"step": 4480
	},
	{
	"epoch": 0.5122221906035684,
	"grad_norm": 0.46578243374824524,
	"learning_rate": 0.0002,
	"loss": 0.2935,
	"step": 4500
	},
	{
	"epoch": 0.5144987336729177,
	"grad_norm": 0.6523891687393188,
	"learning_rate": 0.0002,
	"loss": 0.2823,
	"step": 4520
	},
	{
	"epoch": 0.5167752767422669,
	"grad_norm": 0.4787238538265228,
	"learning_rate": 0.0002,
	"loss": 0.3148,
	"step": 4540
	},
	{
	"epoch": 0.5190518198116161,
	"grad_norm": 0.46825891733169556,
	"learning_rate": 0.0002,
	"loss": 0.3089,
	"step": 4560
	},
	{
	"epoch": 0.5213283628809653,
	"grad_norm": 0.46605536341667175,
	"learning_rate": 0.0002,
	"loss": 0.3012,
	"step": 4580
	},
	{
	"epoch": 0.5236049059503144,
	"grad_norm": 0.5826888680458069,
	"learning_rate": 0.0002,
	"loss": 0.3043,
	"step": 4600
	},
	{
	"epoch": 0.5258814490196636,
	"grad_norm": 0.48641151189804077,
	"learning_rate": 0.0002,
	"loss": 0.2952,
	"step": 4620
	},
	{
	"epoch": 0.5281579920890128,
	"grad_norm": 0.5396175384521484,
	"learning_rate": 0.0002,
	"loss": 0.2926,
	"step": 4640
	},
	{
	"epoch": 0.530434535158362,
	"grad_norm": 0.5584241151809692,
	"learning_rate": 0.0002,
	"loss": 0.3048,
	"step": 4660
	},
	{
	"epoch": 0.5327110782277112,
	"grad_norm": 0.5832685232162476,
	"learning_rate": 0.0002,
	"loss": 0.2948,
	"step": 4680
	},
	{
	"epoch": 0.5349876212970605,
	"grad_norm": 0.4676337242126465,
	"learning_rate": 0.0002,
	"loss": 0.3043,
	"step": 4700
	},
	{
	"epoch": 0.5372641643664096,
	"grad_norm": 0.4440428614616394,
	"learning_rate": 0.0002,
	"loss": 0.288,
	"step": 4720
	},
	{
	"epoch": 0.5395407074357588,
	"grad_norm": 0.49934279918670654,
	"learning_rate": 0.0002,
	"loss": 0.2882,
	"step": 4740
	},
	{
	"epoch": 0.541817250505108,
	"grad_norm": 0.5172054171562195,
	"learning_rate": 0.0002,
	"loss": 0.3225,
	"step": 4760
	},
	{
	"epoch": 0.5440937935744572,
	"grad_norm": 0.4527619183063507,
	"learning_rate": 0.0002,
	"loss": 0.2869,
	"step": 4780
	},
	{
	"epoch": 0.5463703366438064,
	"grad_norm": 0.548918604850769,
	"learning_rate": 0.0002,
	"loss": 0.3105,
	"step": 4800
	},
	{
	"epoch": 0.5486468797131556,
	"grad_norm": 0.48801419138908386,
	"learning_rate": 0.0002,
	"loss": 0.2835,
	"step": 4820
	},
	{
	"epoch": 0.5509234227825047,
	"grad_norm": 0.49810609221458435,
	"learning_rate": 0.0002,
	"loss": 0.3227,
	"step": 4840
	},
	{
	"epoch": 0.5531999658518539,
	"grad_norm": 0.49763086438179016,
	"learning_rate": 0.0002,
	"loss": 0.2786,
	"step": 4860
	},
	{
	"epoch": 0.5554765089212031,
	"grad_norm": 0.48815059661865234,
	"learning_rate": 0.0002,
	"loss": 0.2802,
	"step": 4880
	},
	{
	"epoch": 0.5577530519905524,
	"grad_norm": 0.3571115732192993,
	"learning_rate": 0.0002,
	"loss": 0.2796,
	"step": 4900
	},
	{
	"epoch": 0.5600295950599016,
	"grad_norm": 0.6448425650596619,
	"learning_rate": 0.0002,
	"loss": 0.2844,
	"step": 4920
	},
	{
	"epoch": 0.5623061381292508,
	"grad_norm": 0.49660468101501465,
	"learning_rate": 0.0002,
	"loss": 0.2892,
	"step": 4940
	},
	{
	"epoch": 0.5645826811985999,
	"grad_norm": 0.47702720761299133,
	"learning_rate": 0.0002,
	"loss": 0.3111,
	"step": 4960
	},
	{
	"epoch": 0.5668592242679491,
	"grad_norm": 0.5281921029090881,
	"learning_rate": 0.0002,
	"loss": 0.2908,
	"step": 4980
	},
	{
	"epoch": 0.5691357673372983,
	"grad_norm": 0.6427987813949585,
	"learning_rate": 0.0002,
	"loss": 0.2848,
	"step": 5000
	},
	{
	"epoch": 0.5714123104066475,
	"grad_norm": 0.5437233448028564,
	"learning_rate": 0.0002,
	"loss": 0.3023,
	"step": 5020
	},
	{
	"epoch": 0.5736888534759967,
	"grad_norm": 0.517444372177124,
	"learning_rate": 0.0002,
	"loss": 0.2876,
	"step": 5040
	},
	{
	"epoch": 0.5759653965453458,
	"grad_norm": 0.5197298526763916,
	"learning_rate": 0.0002,
	"loss": 0.304,
	"step": 5060
	},
	{
	"epoch": 0.578241939614695,
	"grad_norm": 0.3452152907848358,
	"learning_rate": 0.0002,
	"loss": 0.2794,
	"step": 5080
	},
	{
	"epoch": 0.5805184826840443,
	"grad_norm": 0.5630306601524353,
	"learning_rate": 0.0002,
	"loss": 0.2979,
	"step": 5100
	},
	{
	"epoch": 0.5827950257533935,
	"grad_norm": 0.5696737170219421,
	"learning_rate": 0.0002,
	"loss": 0.3035,
	"step": 5120
	},
	{
	"epoch": 0.5850715688227427,
	"grad_norm": 0.5024551153182983,
	"learning_rate": 0.0002,
	"loss": 0.2717,
	"step": 5140
	},
	{
	"epoch": 0.5873481118920919,
	"grad_norm": 0.4166383147239685,
	"learning_rate": 0.0002,
	"loss": 0.3065,
	"step": 5160
	},
	{
	"epoch": 0.589624654961441,
	"grad_norm": 0.36780408024787903,
	"learning_rate": 0.0002,
	"loss": 0.2864,
	"step": 5180
	},
	{
	"epoch": 0.5919011980307902,
	"grad_norm": 0.436526894569397,
	"learning_rate": 0.0002,
	"loss": 0.2764,
	"step": 5200
	},
	{
	"epoch": 0.5941777411001394,
	"grad_norm": 0.43115249276161194,
	"learning_rate": 0.0002,
	"loss": 0.2791,
	"step": 5220
	},
	{
	"epoch": 0.5964542841694886,
	"grad_norm": 0.359739750623703,
	"learning_rate": 0.0002,
	"loss": 0.3108,
	"step": 5240
	},
	{
	"epoch": 0.5987308272388379,
	"grad_norm": 0.4555259644985199,
	"learning_rate": 0.0002,
	"loss": 0.2623,
	"step": 5260
	},
	{
	"epoch": 0.6010073703081871,
	"grad_norm": 0.4587076008319855,
	"learning_rate": 0.0002,
	"loss": 0.293,
	"step": 5280
	},
	{
	"epoch": 0.6032839133775362,
	"grad_norm": 0.5236973166465759,
	"learning_rate": 0.0002,
	"loss": 0.2888,
	"step": 5300
	},
	{
	"epoch": 0.6055604564468854,
	"grad_norm": 0.46685513854026794,
	"learning_rate": 0.0002,
	"loss": 0.2731,
	"step": 5320
	},
	{
	"epoch": 0.6078369995162346,
	"grad_norm": 0.5701884627342224,
	"learning_rate": 0.0002,
	"loss": 0.28,
	"step": 5340
	},
	{
	"epoch": 0.6101135425855838,
	"grad_norm": 0.5002717971801758,
	"learning_rate": 0.0002,
	"loss": 0.2777,
	"step": 5360
	},
	{
	"epoch": 0.612390085654933,
	"grad_norm": 0.5896885395050049,
	"learning_rate": 0.0002,
	"loss": 0.3048,
	"step": 5380
	},
	{
	"epoch": 0.6146666287242821,
	"grad_norm": 0.49014943838119507,
	"learning_rate": 0.0002,
	"loss": 0.2642,
	"step": 5400
	},
	{
	"epoch": 0.6169431717936313,
	"grad_norm": 0.5924846529960632,
	"learning_rate": 0.0002,
	"loss": 0.2943,
	"step": 5420
	},
	{
	"epoch": 0.6192197148629806,
	"grad_norm": 0.49827829003334045,
	"learning_rate": 0.0002,
	"loss": 0.2879,
	"step": 5440
	},
	{
	"epoch": 0.6214962579323298,
	"grad_norm": 0.45312178134918213,
	"learning_rate": 0.0002,
	"loss": 0.2728,
	"step": 5460
	},
	{
	"epoch": 0.623772801001679,
	"grad_norm": 0.3595191538333893,
	"learning_rate": 0.0002,
	"loss": 0.2713,
	"step": 5480
	},
	{
	"epoch": 0.6260493440710282,
	"grad_norm": 0.6547619104385376,
	"learning_rate": 0.0002,
	"loss": 0.2855,
	"step": 5500
	},
	{
	"epoch": 0.6283258871403773,
	"grad_norm": 0.4659534692764282,
	"learning_rate": 0.0002,
	"loss": 0.2908,
	"step": 5520
	},
	{
	"epoch": 0.6306024302097265,
	"grad_norm": 0.4027460813522339,
	"learning_rate": 0.0002,
	"loss": 0.2651,
	"step": 5540
	},
	{
	"epoch": 0.6328789732790757,
	"grad_norm": 0.36129653453826904,
	"learning_rate": 0.0002,
	"loss": 0.2915,
	"step": 5560
	},
	{
	"epoch": 0.6351555163484249,
	"grad_norm": 0.5963912010192871,
	"learning_rate": 0.0002,
	"loss": 0.2968,
	"step": 5580
	},
	{
	"epoch": 0.6374320594177741,
	"grad_norm": 0.49669450521469116,
	"learning_rate": 0.0002,
	"loss": 0.2965,
	"step": 5600
	},
	{
	"epoch": 0.6397086024871234,
	"grad_norm": 0.5784302353858948,
	"learning_rate": 0.0002,
	"loss": 0.2626,
	"step": 5620
	},
	{
	"epoch": 0.6419851455564725,
	"grad_norm": 0.5651645660400391,
	"learning_rate": 0.0002,
	"loss": 0.2738,
	"step": 5640
	},
	{
	"epoch": 0.6442616886258217,
	"grad_norm": 0.45475292205810547,
	"learning_rate": 0.0002,
	"loss": 0.2653,
	"step": 5660
	},
	{
	"epoch": 0.6465382316951709,
	"grad_norm": 0.4691898822784424,
	"learning_rate": 0.0002,
	"loss": 0.2634,
	"step": 5680
	},
	{
	"epoch": 0.6488147747645201,
	"grad_norm": 0.4604431092739105,
	"learning_rate": 0.0002,
	"loss": 0.2838,
	"step": 5700
	},
	{
	"epoch": 0.6510913178338693,
	"grad_norm": 0.506804883480072,
	"learning_rate": 0.0002,
	"loss": 0.2657,
	"step": 5720
	},
	{
	"epoch": 0.6533678609032184,
	"grad_norm": 0.5051881670951843,
	"learning_rate": 0.0002,
	"loss": 0.2976,
	"step": 5740
	},
	{
	"epoch": 0.6556444039725676,
	"grad_norm": 0.4780672788619995,
	"learning_rate": 0.0002,
	"loss": 0.2828,
	"step": 5760
	},
	{
	"epoch": 0.6579209470419168,
	"grad_norm": 0.4695095121860504,
	"learning_rate": 0.0002,
	"loss": 0.2685,
	"step": 5780
	},
	{
	"epoch": 0.660197490111266,
	"grad_norm": 0.4259052276611328,
	"learning_rate": 0.0002,
	"loss": 0.2635,
	"step": 5800
	},
	{
	"epoch": 0.6624740331806153,
	"grad_norm": 0.5684182643890381,
	"learning_rate": 0.0002,
	"loss": 0.2879,
	"step": 5820
	},
	{
	"epoch": 0.6647505762499645,
	"grad_norm": 0.42193594574928284,
	"learning_rate": 0.0002,
	"loss": 0.2678,
	"step": 5840
	},
	{
	"epoch": 0.6670271193193136,
	"grad_norm": 0.5095034241676331,
	"learning_rate": 0.0002,
	"loss": 0.2677,
	"step": 5860
	},
	{
	"epoch": 0.6693036623886628,
	"grad_norm": 0.46626052260398865,
	"learning_rate": 0.0002,
	"loss": 0.2906,
	"step": 5880
	},
	{
	"epoch": 0.671580205458012,
	"grad_norm": 0.5086765289306641,
	"learning_rate": 0.0002,
	"loss": 0.2775,
	"step": 5900
	},
	{
	"epoch": 0.6738567485273612,
	"grad_norm": 0.44444966316223145,
	"learning_rate": 0.0002,
	"loss": 0.2764,
	"step": 5920
	},
	{
	"epoch": 0.6761332915967104,
	"grad_norm": 0.4477381706237793,
	"learning_rate": 0.0002,
	"loss": 0.2729,
	"step": 5940
	},
	{
	"epoch": 0.6784098346660596,
	"grad_norm": 0.46984028816223145,
	"learning_rate": 0.0002,
	"loss": 0.273,
	"step": 5960
	},
	{
	"epoch": 0.6806863777354087,
	"grad_norm": 0.417084276676178,
	"learning_rate": 0.0002,
	"loss": 0.2744,
	"step": 5980
	},
	{
	"epoch": 0.682962920804758,
	"grad_norm": 0.4144213795661926,
	"learning_rate": 0.0002,
	"loss": 0.2704,
	"step": 6000
	},
	{
	"epoch": 0.6852394638741072,
	"grad_norm": 0.5844799876213074,
	"learning_rate": 0.0002,
	"loss": 0.2635,
	"step": 6020
	},
	{
	"epoch": 0.6875160069434564,
	"grad_norm": 0.39512693881988525,
	"learning_rate": 0.0002,
	"loss": 0.2471,
	"step": 6040
	},
	{
	"epoch": 0.6897925500128056,
	"grad_norm": 0.5299990773200989,
	"learning_rate": 0.0002,
	"loss": 0.2648,
	"step": 6060
	},
	{
	"epoch": 0.6920690930821547,
	"grad_norm": 0.4980265498161316,
	"learning_rate": 0.0002,
	"loss": 0.2725,
	"step": 6080
	},
	{
	"epoch": 0.6943456361515039,
	"grad_norm": 0.4003869891166687,
	"learning_rate": 0.0002,
	"loss": 0.2768,
	"step": 6100
	},
	{
	"epoch": 0.6966221792208531,
	"grad_norm": 0.5103460550308228,
	"learning_rate": 0.0002,
	"loss": 0.2638,
	"step": 6120
	},
	{
	"epoch": 0.6988987222902023,
	"grad_norm": 0.737101137638092,
	"learning_rate": 0.0002,
	"loss": 0.2779,
	"step": 6140
	},
	{
	"epoch": 0.7011752653595515,
	"grad_norm": 0.4731826186180115,
	"learning_rate": 0.0002,
	"loss": 0.2691,
	"step": 6160
	},
	{
	"epoch": 0.7034518084289008,
	"grad_norm": 0.5234053730964661,
	"learning_rate": 0.0002,
	"loss": 0.2739,
	"step": 6180
	},
	{
	"epoch": 0.7057283514982499,
	"grad_norm": 0.5235525369644165,
	"learning_rate": 0.0002,
	"loss": 0.2754,
	"step": 6200
	},
	{
	"epoch": 0.7080048945675991,
	"grad_norm": 0.4453619122505188,
	"learning_rate": 0.0002,
	"loss": 0.2833,
	"step": 6220
	},
	{
	"epoch": 0.7102814376369483,
	"grad_norm": 0.4025666117668152,
	"learning_rate": 0.0002,
	"loss": 0.2713,
	"step": 6240
	},
	{
	"epoch": 0.7125579807062975,
	"grad_norm": 0.35240331292152405,
	"learning_rate": 0.0002,
	"loss": 0.2786,
	"step": 6260
	},
	{
	"epoch": 0.7148345237756467,
	"grad_norm": 0.4521905779838562,
	"learning_rate": 0.0002,
	"loss": 0.2639,
	"step": 6280
	},
	{
	"epoch": 0.7171110668449959,
	"grad_norm": 0.5230519771575928,
	"learning_rate": 0.0002,
	"loss": 0.2517,
	"step": 6300
	},
	{
	"epoch": 0.719387609914345,
	"grad_norm": 0.5415637493133545,
	"learning_rate": 0.0002,
	"loss": 0.2739,
	"step": 6320
	},
	{
	"epoch": 0.7216641529836942,
	"grad_norm": 0.4067966341972351,
	"learning_rate": 0.0002,
	"loss": 0.2751,
	"step": 6340
	},
	{
	"epoch": 0.7239406960530435,
	"grad_norm": 0.4670214354991913,
	"learning_rate": 0.0002,
	"loss": 0.2644,
	"step": 6360
	},
	{
	"epoch": 0.7262172391223927,
	"grad_norm": 0.5316203236579895,
	"learning_rate": 0.0002,
	"loss": 0.2746,
	"step": 6380
	},
	{
	"epoch": 0.7284937821917419,
	"grad_norm": 0.46312493085861206,
	"learning_rate": 0.0002,
	"loss": 0.2539,
	"step": 6400
	},
	{
	"epoch": 0.730770325261091,
	"grad_norm": 0.465279221534729,
	"learning_rate": 0.0002,
	"loss": 0.2742,
	"step": 6420
	},
	{
	"epoch": 0.7330468683304402,
	"grad_norm": 0.5096962451934814,
	"learning_rate": 0.0002,
	"loss": 0.2546,
	"step": 6440
	},
	{
	"epoch": 0.7353234113997894,
	"grad_norm": 0.4525590240955353,
	"learning_rate": 0.0002,
	"loss": 0.2694,
	"step": 6460
	},
	{
	"epoch": 0.7375999544691386,
	"grad_norm": 0.5033881664276123,
	"learning_rate": 0.0002,
	"loss": 0.2627,
	"step": 6480
	},
	{
	"epoch": 0.7398764975384878,
	"grad_norm": 0.44053900241851807,
	"learning_rate": 0.0002,
	"loss": 0.258,
	"step": 6500
	},
	{
	"epoch": 0.742153040607837,
	"grad_norm": 0.4677462875843048,
	"learning_rate": 0.0002,
	"loss": 0.2659,
	"step": 6520
	},
	{
	"epoch": 0.7444295836771861,
	"grad_norm": 0.5687553882598877,
	"learning_rate": 0.0002,
	"loss": 0.271,
	"step": 6540
	},
	{
	"epoch": 0.7467061267465354,
	"grad_norm": 0.4980468451976776,
	"learning_rate": 0.0002,
	"loss": 0.265,
	"step": 6560
	},
	{
	"epoch": 0.7489826698158846,
	"grad_norm": 0.5155619382858276,
	"learning_rate": 0.0002,
	"loss": 0.2491,
	"step": 6580
	},
	{
	"epoch": 0.7512592128852338,
	"grad_norm": 0.5364673733711243,
	"learning_rate": 0.0002,
	"loss": 0.2564,
	"step": 6600
	},
	{
	"epoch": 0.753535755954583,
	"grad_norm": 0.421838641166687,
	"learning_rate": 0.0002,
	"loss": 0.267,
	"step": 6620
	},
	{
	"epoch": 0.7558122990239322,
	"grad_norm": 0.46299833059310913,
	"learning_rate": 0.0002,
	"loss": 0.2461,
	"step": 6640
	},
	{
	"epoch": 0.7580888420932813,
	"grad_norm": 0.3832832872867584,
	"learning_rate": 0.0002,
	"loss": 0.265,
	"step": 6660
	},
	{
	"epoch": 0.7603653851626305,
	"grad_norm": 0.5560947060585022,
	"learning_rate": 0.0002,
	"loss": 0.253,
	"step": 6680
	},
	{
	"epoch": 0.7626419282319797,
	"grad_norm": 0.4832628667354584,
	"learning_rate": 0.0002,
	"loss": 0.2515,
	"step": 6700
	},
	{
	"epoch": 0.764918471301329,
	"grad_norm": 0.44354599714279175,
	"learning_rate": 0.0002,
	"loss": 0.2687,
	"step": 6720
	},
	{
	"epoch": 0.7671950143706782,
	"grad_norm": 0.3746070861816406,
	"learning_rate": 0.0002,
	"loss": 0.2481,
	"step": 6740
	},
	{
	"epoch": 0.7694715574400273,
	"grad_norm": 0.3048388659954071,
	"learning_rate": 0.0002,
	"loss": 0.269,
	"step": 6760
	},
	{
	"epoch": 0.7717481005093765,
	"grad_norm": 0.46471843123435974,
	"learning_rate": 0.0002,
	"loss": 0.2642,
	"step": 6780
	},
	{
	"epoch": 0.7740246435787257,
	"grad_norm": 0.44309428334236145,
	"learning_rate": 0.0002,
	"loss": 0.2565,
	"step": 6800
	},
	{
	"epoch": 0.7763011866480749,
	"grad_norm": 0.4174291789531708,
	"learning_rate": 0.0002,
	"loss": 0.262,
	"step": 6820
	},
	{
	"epoch": 0.7785777297174241,
	"grad_norm": 0.42592549324035645,
	"learning_rate": 0.0002,
	"loss": 0.2608,
	"step": 6840
	},
	{
	"epoch": 0.7808542727867733,
	"grad_norm": 0.4378054141998291,
	"learning_rate": 0.0002,
	"loss": 0.2765,
	"step": 6860
	},
	{
	"epoch": 0.7831308158561224,
	"grad_norm": 0.4560708701610565,
	"learning_rate": 0.0002,
	"loss": 0.2381,
	"step": 6880
	},
	{
	"epoch": 0.7854073589254716,
	"grad_norm": 0.4595545828342438,
	"learning_rate": 0.0002,
	"loss": 0.2561,
	"step": 6900
	},
	{
	"epoch": 0.7876839019948209,
	"grad_norm": 0.45213592052459717,
	"learning_rate": 0.0002,
	"loss": 0.2645,
	"step": 6920
	},
	{
	"epoch": 0.7899604450641701,
	"grad_norm": 0.4857342839241028,
	"learning_rate": 0.0002,
	"loss": 0.2687,
	"step": 6940
	},
	{
	"epoch": 0.7922369881335193,
	"grad_norm": 0.4939437508583069,
	"learning_rate": 0.0002,
	"loss": 0.2642,
	"step": 6960
	},
	{
	"epoch": 0.7945135312028685,
	"grad_norm": 0.46244382858276367,
	"learning_rate": 0.0002,
	"loss": 0.2536,
	"step": 6980
	},
	{
	"epoch": 0.7967900742722176,
	"grad_norm": 0.5876993536949158,
	"learning_rate": 0.0002,
	"loss": 0.2492,
	"step": 7000
	},
	{
	"epoch": 0.7990666173415668,
	"grad_norm": 0.5170072913169861,
	"learning_rate": 0.0002,
	"loss": 0.2548,
	"step": 7020
	},
	{
	"epoch": 0.801343160410916,
	"grad_norm": 0.394380658864975,
	"learning_rate": 0.0002,
	"loss": 0.2524,
	"step": 7040
	},
	{
	"epoch": 0.8036197034802652,
	"grad_norm": 0.4716455340385437,
	"learning_rate": 0.0002,
	"loss": 0.2573,
	"step": 7060
	},
	{
	"epoch": 0.8058962465496144,
	"grad_norm": 0.34525179862976074,
	"learning_rate": 0.0002,
	"loss": 0.246,
	"step": 7080
	},
	{
	"epoch": 0.8081727896189635,
	"grad_norm": 0.5030418038368225,
	"learning_rate": 0.0002,
	"loss": 0.2596,
	"step": 7100
	},
	{
	"epoch": 0.8104493326883128,
	"grad_norm": 0.5586132407188416,
	"learning_rate": 0.0002,
	"loss": 0.2568,
	"step": 7120
	},
	{
	"epoch": 0.812725875757662,
	"grad_norm": 0.47025129199028015,
	"learning_rate": 0.0002,
	"loss": 0.265,
	"step": 7140
	},
	{
	"epoch": 0.8150024188270112,
	"grad_norm": 0.5654832720756531,
	"learning_rate": 0.0002,
	"loss": 0.2468,
	"step": 7160
	},
	{
	"epoch": 0.8172789618963604,
	"grad_norm": 0.4701017141342163,
	"learning_rate": 0.0002,
	"loss": 0.2538,
	"step": 7180
	},
	{
	"epoch": 0.8195555049657096,
	"grad_norm": 0.47270438075065613,
	"learning_rate": 0.0002,
	"loss": 0.2529,
	"step": 7200
	},
	{
	"epoch": 0.8218320480350587,
	"grad_norm": 0.39433714747428894,
	"learning_rate": 0.0002,
	"loss": 0.2445,
	"step": 7220
	},
	{
	"epoch": 0.8241085911044079,
	"grad_norm": 0.4521467685699463,
	"learning_rate": 0.0002,
	"loss": 0.2556,
	"step": 7240
	},
	{
	"epoch": 0.8263851341737571,
	"grad_norm": 0.28483667969703674,
	"learning_rate": 0.0002,
	"loss": 0.2451,
	"step": 7260
	},
	{
	"epoch": 0.8286616772431064,
	"grad_norm": 0.4298310875892639,
	"learning_rate": 0.0002,
	"loss": 0.2599,
	"step": 7280
	},
	{
	"epoch": 0.8309382203124556,
	"grad_norm": 0.39677906036376953,
	"learning_rate": 0.0002,
	"loss": 0.2539,
	"step": 7300
	},
	{
	"epoch": 0.8332147633818048,
	"grad_norm": 0.5800175666809082,
	"learning_rate": 0.0002,
	"loss": 0.2463,
	"step": 7320
	},
	{
	"epoch": 0.8354913064511539,
	"grad_norm": 0.42742472887039185,
	"learning_rate": 0.0002,
	"loss": 0.2593,
	"step": 7340
	},
	{
	"epoch": 0.8377678495205031,
	"grad_norm": 0.5521807670593262,
	"learning_rate": 0.0002,
	"loss": 0.253,
	"step": 7360
	},
	{
	"epoch": 0.8400443925898523,
	"grad_norm": 0.5068047046661377,
	"learning_rate": 0.0002,
	"loss": 0.2503,
	"step": 7380
	},
	{
	"epoch": 0.8423209356592015,
	"grad_norm": 0.4325120151042938,
	"learning_rate": 0.0002,
	"loss": 0.2466,
	"step": 7400
	},
	{
	"epoch": 0.8445974787285507,
	"grad_norm": 0.5130394101142883,
	"learning_rate": 0.0002,
	"loss": 0.2521,
	"step": 7420
	},
	{
	"epoch": 0.8468740217978998,
	"grad_norm": 0.5091120600700378,
	"learning_rate": 0.0002,
	"loss": 0.2429,
	"step": 7440
	},
	{
	"epoch": 0.849150564867249,
	"grad_norm": 0.4635036289691925,
	"learning_rate": 0.0002,
	"loss": 0.235,
	"step": 7460
	},
	{
	"epoch": 0.8514271079365983,
	"grad_norm": 0.3827108144760132,
	"learning_rate": 0.0002,
	"loss": 0.2487,
	"step": 7480
	},
	{
	"epoch": 0.8537036510059475,
	"grad_norm": 0.3880899250507355,
	"learning_rate": 0.0002,
	"loss": 0.2469,
	"step": 7500
	},
	{
	"epoch": 0.8559801940752967,
	"grad_norm": 0.408933162689209,
	"learning_rate": 0.0002,
	"loss": 0.2499,
	"step": 7520
	},
	{
	"epoch": 0.8582567371446459,
	"grad_norm": 0.5049706101417542,
	"learning_rate": 0.0002,
	"loss": 0.2418,
	"step": 7540
	},
	{
	"epoch": 0.860533280213995,
	"grad_norm": 0.43551701307296753,
	"learning_rate": 0.0002,
	"loss": 0.2478,
	"step": 7560
	},
	{
	"epoch": 0.8628098232833442,
	"grad_norm": 0.5024411678314209,
	"learning_rate": 0.0002,
	"loss": 0.2538,
	"step": 7580
	},
	{
	"epoch": 0.8650863663526934,
	"grad_norm": 0.36361223459243774,
	"learning_rate": 0.0002,
	"loss": 0.2536,
	"step": 7600
	},
	{
	"epoch": 0.8673629094220426,
	"grad_norm": 0.4526277482509613,
	"learning_rate": 0.0002,
	"loss": 0.242,
	"step": 7620
	},
	{
	"epoch": 0.8696394524913919,
	"grad_norm": 0.5677676200866699,
	"learning_rate": 0.0002,
	"loss": 0.2572,
	"step": 7640
	},
	{
	"epoch": 0.8719159955607411,
	"grad_norm": 0.4915711283683777,
	"learning_rate": 0.0002,
	"loss": 0.2562,
	"step": 7660
	},
	{
	"epoch": 0.8741925386300902,
	"grad_norm": 0.36850452423095703,
	"learning_rate": 0.0002,
	"loss": 0.2523,
	"step": 7680
	},
	{
	"epoch": 0.8764690816994394,
	"grad_norm": 0.38313761353492737,
	"learning_rate": 0.0002,
	"loss": 0.2596,
	"step": 7700
	},
	{
	"epoch": 0.8787456247687886,
	"grad_norm": 0.5384640097618103,
	"learning_rate": 0.0002,
	"loss": 0.2455,
	"step": 7720
	},
	{
	"epoch": 0.8810221678381378,
	"grad_norm": 0.5308900475502014,
	"learning_rate": 0.0002,
	"loss": 0.2439,
	"step": 7740
	},
	{
	"epoch": 0.883298710907487,
	"grad_norm": 0.5488154292106628,
	"learning_rate": 0.0002,
	"loss": 0.2428,
	"step": 7760
	},
	{
	"epoch": 0.8855752539768362,
	"grad_norm": 0.5271242260932922,
	"learning_rate": 0.0002,
	"loss": 0.2372,
	"step": 7780
	},
	{
	"epoch": 0.8878517970461853,
	"grad_norm": 0.46171802282333374,
	"learning_rate": 0.0002,
	"loss": 0.2506,
	"step": 7800
	},
	{
	"epoch": 0.8901283401155345,
	"grad_norm": 0.45436665415763855,
	"learning_rate": 0.0002,
	"loss": 0.2414,
	"step": 7820
	},
	{
	"epoch": 0.8924048831848838,
	"grad_norm": 0.4920847415924072,
	"learning_rate": 0.0002,
	"loss": 0.2669,
	"step": 7840
	},
	{
	"epoch": 0.894681426254233,
	"grad_norm": 0.5913518071174622,
	"learning_rate": 0.0002,
	"loss": 0.2552,
	"step": 7860
	},
	{
	"epoch": 0.8969579693235822,
	"grad_norm": 0.6011972427368164,
	"learning_rate": 0.0002,
	"loss": 0.2533,
	"step": 7880
	},
	{
	"epoch": 0.8992345123929313,
	"grad_norm": 0.4650927186012268,
	"learning_rate": 0.0002,
	"loss": 0.2448,
	"step": 7900
	},
	{
	"epoch": 0.9015110554622805,
	"grad_norm": 0.5828790664672852,
	"learning_rate": 0.0002,
	"loss": 0.2381,
	"step": 7920
	},
	{
	"epoch": 0.9037875985316297,
	"grad_norm": 0.5178338885307312,
	"learning_rate": 0.0002,
	"loss": 0.2619,
	"step": 7940
	},
	{
	"epoch": 0.9060641416009789,
	"grad_norm": 0.5147708058357239,
	"learning_rate": 0.0002,
	"loss": 0.258,
	"step": 7960
	},
	{
	"epoch": 0.9083406846703281,
	"grad_norm": 0.45790836215019226,
	"learning_rate": 0.0002,
	"loss": 0.2474,
	"step": 7980
	},
	{
	"epoch": 0.9106172277396773,
	"grad_norm": 0.3837074935436249,
	"learning_rate": 0.0002,
	"loss": 0.2356,
	"step": 8000
	},
	{
	"epoch": 0.9128937708090265,
	"grad_norm": 0.4466090500354767,
	"learning_rate": 0.0002,
	"loss": 0.237,
	"step": 8020
	},
	{
	"epoch": 0.9151703138783757,
	"grad_norm": 0.5893344283103943,
	"learning_rate": 0.0002,
	"loss": 0.2399,
	"step": 8040
	},
	{
	"epoch": 0.9174468569477249,
	"grad_norm": 0.49547362327575684,
	"learning_rate": 0.0002,
	"loss": 0.2526,
	"step": 8060
	},
	{
	"epoch": 0.9197234000170741,
	"grad_norm": 0.47068551182746887,
	"learning_rate": 0.0002,
	"loss": 0.2631,
	"step": 8080
	},
	{
	"epoch": 0.9219999430864233,
	"grad_norm": 0.3512951135635376,
	"learning_rate": 0.0002,
	"loss": 0.2395,
	"step": 8100
	},
	{
	"epoch": 0.9242764861557725,
	"grad_norm": 0.3996793031692505,
	"learning_rate": 0.0002,
	"loss": 0.2424,
	"step": 8120
	},
	{
	"epoch": 0.9265530292251216,
	"grad_norm": 0.5782022476196289,
	"learning_rate": 0.0002,
	"loss": 0.2549,
	"step": 8140
	},
	{
	"epoch": 0.9288295722944708,
	"grad_norm": 0.450860857963562,
	"learning_rate": 0.0002,
	"loss": 0.2465,
	"step": 8160
	},
	{
	"epoch": 0.93110611536382,
	"grad_norm": 0.4679816663265228,
	"learning_rate": 0.0002,
	"loss": 0.2326,
	"step": 8180
	},
	{
	"epoch": 0.9333826584331693,
	"grad_norm": 0.5497337579727173,
	"learning_rate": 0.0002,
	"loss": 0.2457,
	"step": 8200
	},
	{
	"epoch": 0.9356592015025185,
	"grad_norm": 0.3775748312473297,
	"learning_rate": 0.0002,
	"loss": 0.2331,
	"step": 8220
	},
	{
	"epoch": 0.9379357445718676,
	"grad_norm": 0.5428327918052673,
	"learning_rate": 0.0002,
	"loss": 0.2399,
	"step": 8240
	},
	{
	"epoch": 0.9402122876412168,
	"grad_norm": 0.4089830219745636,
	"learning_rate": 0.0002,
	"loss": 0.246,
	"step": 8260
	},
	{
	"epoch": 0.942488830710566,
	"grad_norm": 0.5781340003013611,
	"learning_rate": 0.0002,
	"loss": 0.2451,
	"step": 8280
	},
	{
	"epoch": 0.9447653737799152,
	"grad_norm": 0.5869989395141602,
	"learning_rate": 0.0002,
	"loss": 0.2541,
	"step": 8300
	},
	{
	"epoch": 0.9470419168492644,
	"grad_norm": 0.47708019614219666,
	"learning_rate": 0.0002,
	"loss": 0.2559,
	"step": 8320
	},
	{
	"epoch": 0.9493184599186136,
	"grad_norm": 0.5445525050163269,
	"learning_rate": 0.0002,
	"loss": 0.2466,
	"step": 8340
	},
	{
	"epoch": 0.9515950029879627,
	"grad_norm": 0.480214387178421,
	"learning_rate": 0.0002,
	"loss": 0.236,
	"step": 8360
	},
	{
	"epoch": 0.953871546057312,
	"grad_norm": 0.5392053127288818,
	"learning_rate": 0.0002,
	"loss": 0.2383,
	"step": 8380
	},
	{
	"epoch": 0.9561480891266612,
	"grad_norm": 0.4515858292579651,
	"learning_rate": 0.0002,
	"loss": 0.238,
	"step": 8400
	},
	{
	"epoch": 0.9584246321960104,
	"grad_norm": 0.5461826324462891,
	"learning_rate": 0.0002,
	"loss": 0.2442,
	"step": 8420
	},
	{
	"epoch": 0.9607011752653596,
	"grad_norm": 0.44309332966804504,
	"learning_rate": 0.0002,
	"loss": 0.2622,
	"step": 8440
	},
	{
	"epoch": 0.9629777183347088,
	"grad_norm": 0.5409505367279053,
	"learning_rate": 0.0002,
	"loss": 0.2303,
	"step": 8460
	},
	{
	"epoch": 0.9652542614040579,
	"grad_norm": 0.3868342638015747,
	"learning_rate": 0.0002,
	"loss": 0.2624,
	"step": 8480
	},
	{
	"epoch": 0.9675308044734071,
	"grad_norm": 0.38888975977897644,
	"learning_rate": 0.0002,
	"loss": 0.246,
	"step": 8500
	},
	{
	"epoch": 0.9698073475427563,
	"grad_norm": 0.38946032524108887,
	"learning_rate": 0.0002,
	"loss": 0.2503,
	"step": 8520
	},
	{
	"epoch": 0.9720838906121055,
	"grad_norm": 0.42425817251205444,
	"learning_rate": 0.0002,
	"loss": 0.2556,
	"step": 8540
	},
	{
	"epoch": 0.9743604336814548,
	"grad_norm": 0.41515296697616577,
	"learning_rate": 0.0002,
	"loss": 0.2437,
	"step": 8560
	},
	{
	"epoch": 0.9766369767508039,
	"grad_norm": 0.4085826575756073,
	"learning_rate": 0.0002,
	"loss": 0.2293,
	"step": 8580
	},
	{
	"epoch": 0.9789135198201531,
	"grad_norm": 0.3404542803764343,
	"learning_rate": 0.0002,
	"loss": 0.242,
	"step": 8600
	},
	{
	"epoch": 0.9811900628895023,
	"grad_norm": 0.43266579508781433,
	"learning_rate": 0.0002,
	"loss": 0.2513,
	"step": 8620
	},
	{
	"epoch": 0.9834666059588515,
	"grad_norm": 0.42724549770355225,
	"learning_rate": 0.0002,
	"loss": 0.2384,
	"step": 8640
	},
	{
	"epoch": 0.9857431490282007,
	"grad_norm": 0.5089221596717834,
	"learning_rate": 0.0002,
	"loss": 0.2409,
	"step": 8660
	},
	{
	"epoch": 0.9880196920975499,
	"grad_norm": 0.519223690032959,
	"learning_rate": 0.0002,
	"loss": 0.2353,
	"step": 8680
	},
	{
	"epoch": 0.990296235166899,
	"grad_norm": 0.5701056122779846,
	"learning_rate": 0.0002,
	"loss": 0.2486,
	"step": 8700
	},
	{
	"epoch": 0.9925727782362482,
	"grad_norm": 0.4519595503807068,
	"learning_rate": 0.0002,
	"loss": 0.2374,
	"step": 8720
	},
	{
	"epoch": 0.9948493213055974,
	"grad_norm": 0.4883946180343628,
	"learning_rate": 0.0002,
	"loss": 0.2441,
	"step": 8740
	},
	{
	"epoch": 0.9971258643749467,
	"grad_norm": 0.6918900012969971,
	"learning_rate": 0.0002,
	"loss": 0.2403,
	"step": 8760
	},
	{
	"epoch": 0.9994024074442959,
	"grad_norm": 0.4810091555118561,
	"learning_rate": 0.0002,
	"loss": 0.2334,
	"step": 8780
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.30941203236579895,
	"eval_runtime": 408.7196,
	"eval_samples_per_second": 7.083,
	"eval_steps_per_second": 0.886,
	"step": 8786
	}
	],
	"logging_steps": 20,
	"max_steps": 13000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 77,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.923169198364426e+18,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}