quincyqiang commited on
Commit
b5553a3
·
1 Parent(s): a4ca485

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -56,7 +56,7 @@ tags:
56
  └── step4_merge_tokenizers.py 与原版llama的分词器进行合并,得到hf格式的tokenizer
57
 
58
  ```
59
- **原始llama2词表大小32000,合并之后词表大小为62819,sft添加pad字符之后大小为62820**
60
  ## 🚀step2:二次预训练
61
 
62
  > 在中文预训练语料上对LLaMA进行增量预训练、继续预训练,目前训练语料20GB,后续继续迭代更新
 
56
  └── step4_merge_tokenizers.py 与原版llama的分词器进行合并,得到hf格式的tokenizer
57
 
58
  ```
59
+ **原始llama2词表大小32000,与40k训练的中文分词模型合并之后词表大小为68419,sft添加pad字符之后大小为68420**
60
  ## 🚀step2:二次预训练
61
 
62
  > 在中文预训练语料上对LLaMA进行增量预训练、继续预训练,目前训练语料20GB,后续继续迭代更新