Commit
·
b5553a3
1
Parent(s):
a4ca485
Update README.md
Browse files
README.md
CHANGED
@@ -56,7 +56,7 @@ tags:
|
|
56 |
└── step4_merge_tokenizers.py 与原版llama的分词器进行合并,得到hf格式的tokenizer
|
57 |
|
58 |
```
|
59 |
-
**原始llama2词表大小32000
|
60 |
## 🚀step2:二次预训练
|
61 |
|
62 |
> 在中文预训练语料上对LLaMA进行增量预训练、继续预训练,目前训练语料20GB,后续继续迭代更新
|
|
|
56 |
└── step4_merge_tokenizers.py 与原版llama的分词器进行合并,得到hf格式的tokenizer
|
57 |
|
58 |
```
|
59 |
+
**原始llama2词表大小32000,与40k训练的中文分词模型合并之后词表大小为68419,sft添加pad字符之后大小为68420**
|
60 |
## 🚀step2:二次预训练
|
61 |
|
62 |
> 在中文预训练语料上对LLaMA进行增量预训练、继续预训练,目前训练语料20GB,后续继续迭代更新
|