Model save

Browse files

Files changed (6) hide show

README.md +1 -1
all_results.json +4 -4
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +36 -36
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/haozhezhao/huggingface/runs/n8eembxg)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/haozhezhao/huggingface/runs/5s7qcp5j)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.06262696608901024,
-    "train_runtime": 3770.358,
     "train_samples": 4500,
-    "train_samples_per_second": 1.194,
-    "train_steps_per_second": 0.011
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.17294886400923132,
+    "train_runtime": 6524.5156,
     "train_samples": 4500,
+    "train_samples_per_second": 0.69,
+    "train_steps_per_second": 0.006
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:542c6e5e58a3ff54e2c927aa29bc7c34556ed1718c1236da2349845bbd39b149
 size 4943274328

 version https://git-lfs.github.com/spec/v1
+oid sha256:da302febe17c06a48f95d6c992ed2f3edfb5c9ba10326eaaa7dde97149e5f2c3
 size 4943274328

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.06262696608901024,
-    "train_runtime": 3770.358,
     "train_samples": 4500,
-    "train_samples_per_second": 1.194,
-    "train_steps_per_second": 0.011
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.17294886400923132,
+    "train_runtime": 6524.5156,
     "train_samples": 4500,
+    "train_samples_per_second": 0.69,
+    "train_steps_per_second": 0.006
 }

trainer_state.json CHANGED Viewed

@@ -9,65 +9,65 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 103.06786165237426,
       "epoch": 0.24883359253499224,
-      "grad_norm": 10.89356517791748,
-      "kl": 3.0970688341651114,
       "learning_rate": 1.866025403784439e-05,
-      "loss": 0.1239,
-      "reward": 0.61015628001187,
-      "reward_std": 0.41818763511255386,
-      "rewards/accuracy_reward": 0.15479911494767293,
-      "rewards/format_reward": 0.45535716295707973,
       "step": 10
     },
     {
-      "completion_length": 31.39263536930084,
       "epoch": 0.4976671850699845,
-      "grad_norm": 4.730869293212891,
-      "kl": 1.1419519972056151,
       "learning_rate": 1.1736481776669307e-05,
-      "loss": 0.0457,
-      "reward": 1.5758929274976254,
-      "reward_std": 0.25283683626912534,
-      "rewards/accuracy_reward": 0.6338169906288386,
-      "rewards/format_reward": 0.9420759212225676,
       "step": 20
     },
     {
-      "completion_length": 31.978237950801848,
       "epoch": 0.7465007776049767,
-      "grad_norm": 1.0211782455444336,
-      "kl": 1.0043069496750832,
       "learning_rate": 3.5721239031346067e-06,
-      "loss": 0.0402,
-      "reward": 1.6506697192788125,
-      "reward_std": 0.21753951534628868,
-      "rewards/accuracy_reward": 0.6888393165543676,
-      "rewards/format_reward": 0.9618303880095482,
       "step": 30
     },
     {
-      "completion_length": 26.995983374118804,
       "epoch": 0.995334370139969,
-      "grad_norm": 0.7562219500541687,
-      "kl": 1.0193692460656165,
       "learning_rate": 0.0,
-      "loss": 0.0408,
-      "reward": 1.732700977474451,
-      "reward_std": 0.14281816640868783,
-      "rewards/accuracy_reward": 0.7460937837138772,
-      "rewards/format_reward": 0.986607164517045,
       "step": 40
     },
     {
       "epoch": 0.995334370139969,
       "step": 40,
       "total_flos": 0.0,
-      "train_loss": 0.06262696608901024,
-      "train_runtime": 3770.358,
-      "train_samples_per_second": 1.194,
-      "train_steps_per_second": 0.011
     }
   ],
   "logging_steps": 10,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 355.3971033751965,
       "epoch": 0.24883359253499224,
+      "grad_norm": 0.5323885083198547,
+      "kl": 14.018265570513904,
       "learning_rate": 1.866025403784439e-05,
+      "loss": 0.5607,
+      "reward": 0.26941965536680074,
+      "reward_std": 0.20019021732732653,
+      "rewards/accuracy_reward": 0.05513393102446571,
+      "rewards/format_reward": 0.2142857245518826,
       "step": 10
     },
     {
+      "completion_length": 997.3060455322266,
       "epoch": 0.4976671850699845,
+      "grad_norm": 0.22486089169979095,
+      "kl": 0.11681123820599168,
       "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.0047,
+      "reward": 0.0003348214435391128,
+      "reward_std": 0.000947018014267087,
+      "rewards/accuracy_reward": 0.0003348214435391128,
+      "rewards/format_reward": 0.0,
       "step": 20
     },
     {
+      "completion_length": 104.72723671197892,
       "epoch": 0.7465007776049767,
+      "grad_norm": 0.828610360622406,
+      "kl": 1.0758276525884867,
       "learning_rate": 3.5721239031346067e-06,
+      "loss": 0.043,
+      "reward": 0.0027901787078008057,
+      "reward_std": 0.006452280096709728,
+      "rewards/accuracy_reward": 0.0027901787078008057,
+      "rewards/format_reward": 0.0,
       "step": 30
     },
     {
+      "completion_length": 14.610380122065544,
       "epoch": 0.995334370139969,
+      "grad_norm": 7.8437886238098145,
+      "kl": 2.0839827720075847,
       "learning_rate": 0.0,
+      "loss": 0.0834,
+      "reward": 0.29776787203736604,
+      "reward_std": 0.21829486889764665,
+      "rewards/accuracy_reward": 0.29776787203736604,
+      "rewards/format_reward": 0.0,
       "step": 40
     },
     {
       "epoch": 0.995334370139969,
       "step": 40,
       "total_flos": 0.0,
+      "train_loss": 0.17294886400923132,
+      "train_runtime": 6524.5156,
+      "train_samples_per_second": 0.69,
+      "train_steps_per_second": 0.006
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e8e55c660570ec0380b7529a2de772884e55dc7a177165e2c159b6d15a06687
 size 5816

 version https://git-lfs.github.com/spec/v1
+oid sha256:543ce3ffbd1d4499efd6ed9f0e96de7df8f454f6e71e07a58ee9e7071c23436c
 size 5816