ΠΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ
WORK IN PROGRESS!!! Π’Π΅ΠΊΡΡΠ°Ρ Π²Π΅ΡΡΠΈΡ v1.
ΠΠ½ΡΡΡΡΠΊΡΠΈΠ²Π½Π°Ρ Π²Π΅ΡΡΠΈΡ Π°Π΄Π°ΠΏΡΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠΉ Π½Π° ΡΡΡΡΠΊΠΈΠΉ ΡΠ·ΡΠΊ ΠΌΠΎΠ΄Π΅Π»ΠΈ Qwen2.5-14B. Π ΠΌΠΎΠ΄Π΅Π»ΠΈ Π±ΡΠ» Π·Π°ΠΌΠ΅Π½Π΅Π½ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡ, Π·Π°ΡΠ΅ΠΌ ΠΏΡΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΎ Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ (Continued pretraining) Π½Π° ΡΡΡΡΠΊΠΎΡΠ·ΡΡΠ½ΠΎΠΌ ΠΊΠΎΡΠΏΡΡΠ΅, ΠΏΠΎΡΠ»Π΅ ΡΠ΅Π³ΠΎ Π±ΡΠ»Π° ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½Π° ΡΠ΅Ρ Π½ΠΈΠΊΠ° LEP (Learned Embedding Propagation).
ΠΠ»Π°Π³ΠΎΠ΄Π°ΡΡ Π½ΠΎΠ²ΠΎΠΌΡ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡΡ (ΡΠ°ΡΡΠΈΡΠ΅Π½Π½ΡΠΉ tiktoken cl100k Ρ ΠΏΠΎΠΌΠΎΡΡΡ ΡΠ½ΠΈΠ³ΡΠ°ΠΌ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡΠ° Π½Π° 48 Ρ. ΡΠΎΠΊΠ΅Π½ΠΎΠ²) ΡΠΊΠΎΡΠΎΡΡΡ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ* ΡΡΡΡΠΊΠΎΡΠ·ΡΡΠ½ΡΡ ΡΠ΅ΠΊΡΡΠΎΠ² Π²ΠΎΠ·ΡΠ°ΡΠ»Π° Π΄ΠΎ 60% ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ ΠΈΡΡ ΠΎΠ΄Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΡΡ Qwen-2.5-14B-Instruct.
*ΠΠΎΠ΄ ΡΠΊΠΎΡΠΎΡΡΡΡ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΠΏΠΎΠ΄ΡΠ°Π·ΡΠΌΠ΅Π²Π°Π΅ΡΡΡ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΡΡΡΡΠΊΠΎΡΠ·ΡΡΠ½ΡΡ ΡΠΈΠΌΠ²ΠΎΠ»ΠΎΠ²/ΡΠ»ΠΎΠ² Π² ΡΠ΅ΠΊΡΠ½Π΄Ρ Π½Π° ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΡΡ ΡΠ΅ΠΊΡΡΠΎΠ²ΡΡ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΡΡ .
ΠΠΎΠΏΡΠΎΠ±ΠΎΠ²Π°ΡΡ
ΠΠΎΠ΄Π΅Π»Ρ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠΏΡΠΎΠ±ΠΎΠ²Π°ΡΡ Π² ΠΏΠΎΠ΄Π½ΡΡΠΎΠΌ Space (Π²Π½ΠΈΠ·Ρ Π² ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ°Ρ Π²ΡΠ±ΠΎΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ): https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
Π’ΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΈΡ
ΠΠ΅ΡΡΠΈΠΊΠΈ ΠΈ ΠΎΡΠ΅Π½ΠΊΠ° ΠΊΠ°ΡΠ΅ΡΡΠ²Π°
ΠΠΎΠ΄Π΅Π»Ρ Π±ΡΠ»Π° ΠΎΡΠ΅Π½Π΅Π½Π° Π½Π° Ru-Arena-General, MERA, llmtf_open
Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ Π½Π° Ru-Arena-General
ΠΠ°ΠΌΠ΅ΡΡ Π±ΡΠ»ΠΈ ΠΏΡΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½Ρ Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΠΎΡΡΠΈΡΠΈΠ°Π»ΡΠ½ΠΎΠ³ΠΎ ΠΊΠΎΠ΄Π° Π»ΠΈΠ΄Π΅ΡΠ±ΠΎΡΠ΄Π° (https://github.com/VikhrModels/ru_llm_arena), Π½ΠΎ Ρ repetition_penalty=1.1.
TODO
Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ Π½Π° MERA
ΠΠ»Ρ ΡΠ°Π±ΠΌΠΈΡΠ° Π½Π° MERA Π±ΡΠ» ΠΏΠΎΠ΄Π³ΠΎΡΠΎΠ²Π»Π΅Π½ ΠΊΠ°ΡΡΠΎΠΌΠ½ΡΠΉ ΡΠΈΡΡΠ΅ΠΌΠ½ΡΠΉ ΠΏΡΠΎΠΌΠΏΡ, ΠΊΠΎΡΠΎΡΡΠΉ ΡΠΌΡΠ³ΡΠ°Π΅Ρ Π½Π΅Π΄ΠΎΡΡΠ°ΡΠΊΠΈ ΠΎΡΠ΅Π½ΠΊΠΈ Π½Π° ΠΊΠΎΠ΄ΠΎΠ²ΡΡ Π·Π°Π΄Π°ΡΠ°Ρ . ΠΠ»Ρ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Π±ΡΠ» ΡΠ°ΠΊΠΆΠ΅ ΡΠ΄Π΅Π»Π°Π½ ΡΠ°Π±ΠΌΠΈΡ Ρ ΡΡΠΈΠΌ ΠΆΠ΅ ΡΠΈΡΡΠ΅ΠΌΠ½ΡΠΌ ΠΏΡΠΎΠΌΠΏΡΠΎΠΌ ΠΎΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ.
TODO
Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ Π½Π° llmtf_open
TODO
How to cite:
Tikhomirov M., Chernyshev D. Facilitating large language model Russian adaptation with Learned Embedding Propagation // 2024 (Preprint: https://arxiv.org/abs/2412.21140)
Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). β IEEE, 2023. β Π‘. 163-168.
ΠΡΠ΅Π΄ΡΠΏΡΠ΅ΠΆΠ΄Π΅Π½ΠΈΠ΅
ΠΡΠ²Π΅ΡΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΎΡΡΠ°ΠΆΠ°ΡΡ ΠΌΠ½Π΅Π½ΠΈΡ Π°Π²ΡΠΎΡΠΎΠ², Π° Π»ΠΈΡΡ ΠΏΠΎΠ²ΡΠΎΡΡΡΡ Π·Π½Π°Π½ΠΈΡ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠ΅ ΠΈΠ· Π΄Π°Π½Π½ΡΡ Π½Π° Π²ΡΠ΅Ρ ΡΡΠ°ΠΏΠ°Ρ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ (ΠΏΡΠ΅Π΄ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅, ΡΠΌΠ΅Π½Π° ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡΠ°, ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ Π½Π° ΠΈΠ½ΡΡΡΡΠΊΡΠΈΡΡ , ΠΊΠ°Π»ΠΈΠ±ΡΠΎΠ²ΠΊΠ° ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΎΡΠ²Π΅ΡΠΎΠ²). ΠΠΎΠ΄Π΅Π»Ρ Π±ΡΠ»Π° ΠΏΠΎΠ»ΡΡΠ΅Π½Π° ΠΈΠ· ΡΡΠΎΡΠΎΠ½Π½Π΅ΠΉ ΠΏΡΠ΅Π΄ΠΎΠ±ΡΡΠ΅Π½Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΊΠΎΠ½ΡΡΠΎΠ»Ρ Π·Π° ΠΏΡΠ΅Π΄ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ΠΌ ΠΊΠΎΡΠΎΡΠΎΠΉ Π½Π΅ ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΎΡΠ²Π΅ΡΡΡΠ²Π΅Π½Π½ΠΎΡΡΡΡ ΡΠ΅ΠΊΡΡΠΈΡ Π°Π²ΡΠΎΡΠΎΠ². ΠΡΠΈ ΡΠΎΠ·Π΄Π°Π½ΠΈΠΈ Π΄Π°Π½Π½ΠΎΠΉ Π²Π΅ΡΡΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠ»ΠΎΡΡ Π½ΠΈΠΊΠ°ΠΊΠΈΡ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΡΡ Π΄Π΅ΠΉΡΡΠ²ΠΈΠΉ, Π½Π°ΠΏΡΠ°Π²Π»Π΅Π½Π½ΡΡ Π½Π° ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π·Π°Π»ΠΎΠΆΠ΅Π½Π½ΡΡ Π² LLM "ΠΌΠ½Π΅Π½ΠΈΠΉ". ΠΡΠΏΠΎΠ»ΡΠ·ΡΠΉΡΠ΅ Ρ ΠΎΡΡΠΎΡΠΎΠΆΠ½ΠΎΡΡΡΡ.
- Downloads last month
- 11,800