golaxy
/

gogpt2-7b

Text Generation

text-generation-inference

Model card Files Files and versions Metrics Training metrics Community

quincyqiang commited on Jul 22, 2023

Commit

b5553a3

·

1 Parent(s): a4ca485

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -56,7 +56,7 @@ tags:
 └── step4_merge_tokenizers.py 与原版llama的分词器进行合并，得到hf格式的tokenizer
 ```
-**原始llama2词表大小32000，合并之后词表大小为62819，sft添加pad字符之后大小为62820**
 ## 🚀step2：二次预训练
 > 在中文预训练语料上对LLaMA进行增量预训练、继续预训练，目前训练语料20GB，后续继续迭代更新

 └── step4_merge_tokenizers.py 与原版llama的分词器进行合并，得到hf格式的tokenizer
 ```
+**原始llama2词表大小32000，与40k训练的中文分词模型合并之后词表大小为68419，sft添加pad字符之后大小为68420**
 ## 🚀step2：二次预训练
 > 在中文预训练语料上对LLaMA进行增量预训练、继续预训练，目前训练语料20GB，后续继续迭代更新