liuxz0801 commited on
Commit
453d84a
·
1 Parent(s): b470530

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +33 -20
README.md CHANGED
@@ -1,6 +1,3 @@
1
- ---
2
- license: apache-2.0
3
- ---
4
  <div align="center">
5
  <h1>
6
  星辰语义大模型-TeleChat
@@ -8,18 +5,27 @@ license: apache-2.0
8
  </div>
9
 
10
  <p align="center">
11
- 🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ • 💬 <a href="TeleChat-public/images/wechat.jpg" target="_blank">WeChat</a>
12
  </p>
13
 
14
  <p align="center">
15
  <a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
16
  </p>
17
 
 
 
 
 
 
 
 
 
 
18
 
19
  # 最新动态
20
- - 2024.1.10 开源7B版本chat模型及其量化版本
21
- - 2024.1.11 开源1T中文数据集
22
  - 2024.1月底开源12B版本模型(待开放)
 
 
23
 
24
  # 模型介绍
25
  ### 星辰语义大模型-TeleChat
@@ -37,13 +43,15 @@ license: apache-2.0
37
 
38
  | | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
39
  |-----| --------- | ----------- | --------------- | -------- | ----------------------- |
40
- | 7B | 30 | 4096 | 12288 | 32 | 否
 
 
41
  ---
42
 
43
  我们开源的TeleChat模型:
44
  - 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
45
  - 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
46
- - 外推能力提升。开源了8K训练版本模型,采用 NTK-aware + LogN 外推方式,可以外推到32K
47
  - 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
48
 
49
 
@@ -55,6 +63,20 @@ license: apache-2.0
55
  | 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
56
  | 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
57
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
58
 
59
  # 效果评测
60
  TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
@@ -75,13 +97,10 @@ TeleChat模型相比同规模模型在评测效果方面也有较好的表现,
75
  | Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 |
76
  | TeleChat-7B-chat | 54.4 | 62.1 | 64.3 | 46.8 | 57.7 | 36.7 | 10.3 | 14.6 | 66.81 | 88.0 | 87.5 |
77
 
78
- 说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评估,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本MMLU与CEVAL榜单,具体方法见`evaluation/`文件夹。
79
 
80
- # 模型推理和部署
81
- ### 模型推理
82
- 当前模型推理兼容了单卡和多卡推理,以及针对长文推理做了部分优化工作。具体推理操作请参考:[**tutorial**](./docs/tutorial.md)
83
 
84
- **模型推理方法示范**
85
  ```python
86
  >>> import os
87
  >>> import torch
@@ -105,12 +124,6 @@ TeleChat模型相比同规模模型在评测效果方面也有较好的表现,
105
  ```
106
 
107
 
108
- ### 模型部署
109
- TeleChat目前提供了API、Web两种部署方式。目前仅提供简单的单卡单并发场景,用于演示和效果测试。基于参考快速上手手册:[**tutorial**](./docs/tutorial.md)
110
-
111
- API: 分为流式接口和json接口,支持传入推理参数
112
-
113
- Web: 支持流式生成、多轮对话
114
 
115
  # 声明、协议、引用
116
  ### 声明
@@ -119,7 +132,7 @@ Web: 支持流式生成、多轮对话
119
  我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用TeleChat开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
120
 
121
  ### 协议
122
- 社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途,如果您计划将 TeleChat 模型或其衍生品用于商业目的,您需要通过以下联系邮箱 TeleAI@chinatelecom.cn,提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后,将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。
123
 
124
  ### 引用
125
  如需引用我们的工作,请使用如下 reference:
 
 
 
 
1
  <div align="center">
2
  <h1>
3
  星辰语义大模型-TeleChat
 
5
  </div>
6
 
7
  <p align="center">
8
+ 🤗 <a href="https://huggingface.co/Tele-AI/Telechat-7B" target="_blank">Hugging Face</a> • 🏔 <a href="" target="_blank">MindSpore</a>️ 🦉 <a href="https://github.com/Tele-AI/Telechat" target="_blank">github</a>️ 🐾 <a href="https://gitee.com/Tele-AI/tele-chat" target="_blank">gitee</a>️ • 💬 <a href="https://github.com/Tele-AI/Telechat/blob/master/images/wechat.jpg" target="_blank">WeChat</a>
9
  </p>
10
 
11
  <p align="center">
12
  <a href="https://arxiv.org/abs/2401.03804" target="_blank"> Tech Report </a>
13
  </p>
14
 
15
+ # 目录
16
+ - [模型介绍](#模型介绍)
17
+ - [数据开源](#数据开源)
18
+ - [效果评测](#效果评测)
19
+ - [模型推理和部署](#模型推理和部署)
20
+ - [模型微调](#模型微调)
21
+ - [模型量化](#模型量化)
22
+ - [国产GPU适配](#国产GPU适配)
23
+ - [声明、协议、引用](#声明协议引用)
24
 
25
  # 最新动态
 
 
26
  - 2024.1月底开源12B版本模型(待开放)
27
+ - 2024.1.11 开源1T中文数据集
28
+ - 2024.1.10 开源7B版本chat模型及其量化版本
29
 
30
  # 模型介绍
31
  ### 星辰语义大模型-TeleChat
 
43
 
44
  | | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
45
  |-----| --------- | ----------- | --------------- | -------- | ----------------------- |
46
+ | 7B | 30 | 4096 | 12288 | 32 | 否 |
47
+ | 12B | 38 | 5120 | 12288 | 32 | 否 |
48
+
49
  ---
50
 
51
  我们开源的TeleChat模型:
52
  - 支持deepspeed微调,开源了基于deepspeed的训练代码,支持Zero并行显存优化,同时集成了FlashAttention2
53
  - 多轮能力支持。开源了多轮数据构建方式,针对多轮模型训练集成了针对多轮的mask loss训练方式,更好的聚焦多轮答案,提升问答效果。
54
+ - 外推能力提升。开源了8K训练版本模型,采用NTK-aware外推和attention scaling外推方式,可以外推到96K
55
  - 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。
56
 
57
 
 
63
  | 7B-int8 | [TeleChat-int8](https://huggingface.co/Tele-AI/Telechat-7B-int8) |
64
  | 7B-int4 | [TeleChat-int4](https://huggingface.co/Tele-AI/Telechat-7B-int4) |
65
 
66
+ **镜像下载**
67
+ 为了便于大家快速上手,我们提供了可运行的环境镜像,下载地址:[镜像下载](https://cloud.189.cn/t/EbAriaQfa2mm) (访问码:2uik)
68
+
69
+ # 数据开源
70
+ ### 数据介绍
71
+ TeleChat-PTD 是由电信星辰大模型**TeleChat**预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。
72
+
73
+ TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。
74
+
75
+ ### 数据下载
76
+
77
+ huggingface下载地址:TODO
78
+
79
+ 天翼云盘下载地址:TODO
80
 
81
  # 效果评测
82
  TeleChat模型相比同规模模型在评测效果方面也有较好的表现,我们的评测集涵盖了包括MMLU、C-Eval、GAOKAO、AGIEval、CMMLU、 GSM8K、MATH、HumanEval、CHID等数据集,评测能力包括了自然语言理解、知识、数学计算和推理、代码生成等
 
97
  | Qwen-14B-chat | 66.4 | 71.7 | 70.0 | 47.3 | 76.5 | 61 | 26.8 | 36.6 | 55.6 | 72.3 | 91.2 |
98
  | TeleChat-7B-chat | 54.4 | 62.1 | 64.3 | 46.8 | 57.7 | 36.7 | 10.3 | 14.6 | 66.81 | 88.0 | 87.5 |
99
 
100
+ 说明:CMMLU、AGIEval、GAOKAO、CSL、CHID、EPRSTMT均基于[OpenCompass](https://github.com/open-compass/OpenCompass/)平台提供的评测方法进行评��,而对于对比模型,我们同时参考了官方汇报结果和OpenCompass结果。我们使用了自己的评测脚本评测MMLU与CEVAL榜单,具体方法见`evaluation/`文件夹。
101
 
102
+ # 模型推理
 
 
103
 
 
104
  ```python
105
  >>> import os
106
  >>> import torch
 
124
  ```
125
 
126
 
 
 
 
 
 
 
127
 
128
  # 声明、协议、引用
129
  ### 声明
 
132
  我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用TeleChat开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
133
 
134
  ### 协议
135
+ 社区使用 TeleChat 模型需要遵循《[TeleChat模型社区许可协议](./TeleChat模型社区许可协议.pdf)》。TeleChat模型支持商业用途,如果您计划将 TeleChat 模型或其衍生品用于商业目的,您需要通过以下联系邮箱 tele_ai@chinatelecom.cn,提交《TeleChat模型社区许可协议》要求的申请材料。审核通过后,将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。
136
 
137
  ### 引用
138
  如需引用我们的工作,请使用如下 reference: