Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -23,7 +23,7 @@ language:
 ## 🎮 Overview
-QuadConnect2.5-0.5B is a specialized language model trained to master the game of Connect Four. Built on Qwen 2.5 (0.5B parameter base), this model uses GRPO (Gradient-based Reward Policy Optimization) to learn the strategic intricacies of Connect Four gameplay.
 **Status**: Early training experiments (v0.0.9b) - Reward functions still evolving

 ## 🎮 Overview
+QuadConnect2.5-0.5B is a specialized language model trained to master the game of Connect Four. Built on Qwen 2.5 (0.5B parameter base), this model uses GRPO (Group Relative Policy Optimization) to learn the strategic intricacies of Connect Four gameplay.
 **Status**: Early training experiments (v0.0.9b) - Reward functions still evolving