RedHatAI
/

DeepSeek-R1-Distill-Llama-70B-FP8-dynamic

Text Generation

text-generation-inference

compressed-tensors

Model card Files Files and versions

nm-research commited on Feb 27

Commit

fb3637a

·

verified ·

1 Parent(s): 1aee80e

Add reasoning evals

Files changed (1) hide show

README.md +25 -0

README.md CHANGED Viewed

@@ -158,6 +158,31 @@ lm_eval \
   </thead>
   <tbody>
     <tr>
       <td rowspan="7"><b>OpenLLM V1</b></td>
       <td>ARC-Challenge (Acc-Norm, 25-shot)</td>
       <td>63.65</td>

   </thead>
   <tbody>
     <tr>
+<td rowspan="4"><b>Reasoning</b></td>
+<td>AIME 2024 (pass@1)</td>
+<td>67.83</td>
+<td>69.17</td>
+<td>101.98%</td>
+</tr>
+<tr>
+<td>MATH-500 (pass@1)</td>
+<td>95.29</td>
+<td>95.14</td>
+<td>99.84%</td>
+</tr>
+<tr>
+<td>GPQA Diamond (pass@1)</td>
+<td>65.57</td>
+<td>65.15</td>
+<td>99.36%</td>
+</tr>
+<tr>
+<td><b>Average Score</b></td>
+<td><b>76.23</b></td>
+<td><b>76.49</b></td>
+<td><b>100.34%</b></td>
+</tr>
+    <tr>
       <td rowspan="7"><b>OpenLLM V1</b></td>
       <td>ARC-Challenge (Acc-Norm, 25-shot)</td>
       <td>63.65</td>