Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,185 @@
|
|
1 |
-
---
|
2 |
-
license: apache-2.0
|
3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: apache-2.0
|
3 |
+
base_model:
|
4 |
+
- Qwen/Qwen2-VL-7B-Instruct
|
5 |
+
---
|
6 |
+
|
7 |
+
# PP-DocBee
|
8 |
+
|
9 |
+
## 1. 简介
|
10 |
+
|
11 |
+
[PP-DocBee](https://github.com/PaddlePaddle/PaddleMIX/tree/develop/paddlemix/examples/ppdocbee) 是PaddleMIX团队自研的一款专注于文档理解的多模态大模型,在中文文档理解任务上具有卓越表现。该模型通过近 500 万条文档理解类多模态数据集进行微调优化,各种数据集包括了通用VQA类、OCR类、图表类、text-rich文档类、数学和复杂推理类、合成数据类、纯文本数据等,并设置了不同训练数据配比。在学术界权威的几个英文文档理解评测榜单上,PP-DocBee基本都达到了同参数量级别模型的SOTA。在内部业务中文场景类的指标上,PP-DocBee也高于目前的热门开源和闭源模型。
|
12 |
+
|
13 |
+
**本仓库支持的模型权重:**
|
14 |
+
|
15 |
+
| Model |
|
16 |
+
|--------------------|
|
17 |
+
| PaddleMIX/PPDocBee-7B-1210 |
|
18 |
+
|
19 |
+
|
20 |
+
## 2. 环境要求
|
21 |
+
- **python >= 3.10**
|
22 |
+
- **paddlepaddle-gpu 要求>=3.0.0b2或版本develop**
|
23 |
+
- **paddlenlp 要求>=3.0.0b2**
|
24 |
+
```
|
25 |
+
# paddlepaddle-gpu develop版安装示例
|
26 |
+
python -m pip install paddlepaddle-gpu==0.0.0.post118 -f https://www.paddlepaddle.org.cn/whl/linux/gpu/develop.html
|
27 |
+
|
28 |
+
# paddlenlp 3.0.0b3安装示例(推荐)
|
29 |
+
python -m pip install paddlenlp==3.0.0b3
|
30 |
+
```
|
31 |
+
|
32 |
+
|
33 |
+
|
34 |
+
> 注:(默认开启flash_attn)使用flash_attn 要求A100/A800显卡或者H20显卡。V100请用float16推理。
|
35 |
+
|
36 |
+
|
37 |
+
## 3. 在线体验和部署
|
38 |
+
|
39 |
+
### 3.1 在线体验
|
40 |
+
https://github.com/user-attachments/assets/8e74c364-6d65-4930-b873-6fd5df263d9a
|
41 |
+
|
42 |
+
我们提供了在线体验环境,您可以通过[AI Studio](https://aistudio.baidu.com/application/detail/60135)快速体验 PP-DocBee 的功能。
|
43 |
+
|
44 |
+
### 3.2 本地gradio部署
|
45 |
+
```bash
|
46 |
+
# 安装gradio
|
47 |
+
pip install gradio==5.6.0
|
48 |
+
# 运行gradio
|
49 |
+
python paddlemix/examples/ppdocbee/app.py
|
50 |
+
```
|
51 |
+
|
52 |
+
<p align="center">
|
53 |
+
<img src="https://github.com/user-attachments/assets/f6961b29-c168-4e61-b005-032f010dc2ee" width="90%" alt="示例图片"/>
|
54 |
+
</p>
|
55 |
+
|
56 |
+
### 3.3 OpenAI服务部署
|
57 |
+
我们提供了基于OpenAI服务部署的代码,您可以通过阅读[服务部署文档](https://github.com/PaddlePaddle/PaddleMIX/blob/develop/paddlemix/examples/qwen2_vl/README_SERVER.md)快速搭建服务。
|
58 |
+
|
59 |
+
|
60 |
+
## 4. 使用指南
|
61 |
+
|
62 |
+
### 4.1 模型推理
|
63 |
+
|
64 |
+
下面展示了一个表格识别的示例:
|
65 |
+
|
66 |
+
<p align="center">
|
67 |
+
<img src="https://github.com/user-attachments/assets/6a03a848-c396-4b2f-a7f3-47ff1441c750" width="50%" alt="示例图片"/>
|
68 |
+
</p>
|
69 |
+
|
70 |
+
```bash
|
71 |
+
python paddlemix/examples/ppdocbee/ppdocbee_infer.py \
|
72 |
+
--model_path "PaddleMIX/PPDocBee-2B-1129" \
|
73 |
+
--image_file "paddlemix/demo_images/medal_table.png" \
|
74 |
+
--question "识别这份表格的内容"
|
75 |
+
```
|
76 |
+
|
77 |
+
输出示例:
|
78 |
+
```
|
79 |
+
| 名次 | 国家/地区 | 金牌 | 银牌 | 铜牌 | 奖牌总数 |
|
80 |
+
| --- | --- | --- | --- | --- | --- |
|
81 |
+
| 1 | 中国(CHN) | 48 | 22 | 30 | 100 |
|
82 |
+
| 2 | 美国(USA) | 36 | 39 | 37 | 112 |
|
83 |
+
| 3 | 俄罗斯(RUS) | 24 | 13 | 23 | 60 |
|
84 |
+
| 4 | 英国(GBR) | 19 | 13 | 19 | 51 |
|
85 |
+
| 5 | 德国(GER) | 16 | 11 | 14 | 41 |
|
86 |
+
| 6 | 澳大利亚(AUS) | 14 | 15 | 17 | 46 |
|
87 |
+
| 7 | 韩国(KOR) | 13 | 11 | 8 | 32 |
|
88 |
+
| 8 | 日本(JPN) | 9 | 8 | 8 | 25 |
|
89 |
+
| 9 | 意大利(ITA) | 8 | 9 | 10 | 27 |
|
90 |
+
| 10 | 法国(FRA) | 7 | 16 | 20 | 43 |
|
91 |
+
| 11 | 荷兰(NED) | 7 | 5 | 4 | 16 |
|
92 |
+
| 12 | 乌克兰(UKR) | 7 | 4 | 11 | 22 |
|
93 |
+
| 13 | 肯尼亚(KEN) | 6 | 4 | 6 | 16 |
|
94 |
+
| 14 | 西班牙(ESP) | 5 | 11 | 3 | 19 |
|
95 |
+
| 15 | 牙买加(JAM) | 5 | 4 | 2 | 11 |
|
96 |
+
```
|
97 |
+
|
98 |
+
### 4.2 模型微调
|
99 |
+
|
100 |
+
### 4.2.1 小型示例数据集
|
101 |
+
|
102 |
+
PaddleMIX团队整理了`chartqa`数据集作为小型的示例数据集,下载链接为:
|
103 |
+
|
104 |
+
```bash
|
105 |
+
wget https://paddlenlp.bj.bcebos.com/models/community/paddlemix/benchmark/playground.tar # 1.0G
|
106 |
+
```
|
107 |
+
playground/目录下包括了图片目录`data/chartqa/`和标注目录`opensource_json/`,详见`paddlemix/examples/ppdocbee/configs/demo_chartqa_500.json`。
|
108 |
+
|
109 |
+
|
110 |
+
### 4.2.2 大型公开数据集
|
111 |
+
|
112 |
+
PP-DocBee模型的SFT训练数据集,包括了众多文档类的指令微调数据集,例如:`dvqa`、`chartqa`、`ai2d`、`docvqa`、`geoqa+`、`synthdog_en`、`LLaVA-OneVision`系列以及内部合成数据集,部分公开数据集详见`paddlemix/examples/ppdocbee/configs/ppdocbee_public_dataset.json`,内部合成数据集暂时不对外开放。
|
113 |
+
|
114 |
+
PaddleMIX团队整理后的下载链接为:
|
115 |
+
```bash
|
116 |
+
wget https://paddlenlp.bj.bcebos.com/datasets/paddlemix/playground.tar # 50G
|
117 |
+
wget https://paddlenlp.bj.bcebos.com/datasets/paddlemix/playground/opensource_json.tar
|
118 |
+
```
|
119 |
+
|
120 |
+
注意:若先下载了示例数据集的`playground.tar`解压了,此处需删除后,再下载公开数据集的`playground.tar`并解压,opensource_json.tar需下载解压在playground/目录下,opensource_json 里是数据标注的json格式文件。
|
121 |
+
|
122 |
+
PaddleMIX团队整理后的`LLaVA-OneVision`系列数据集待开放下载链接,请关注后续更新。
|
123 |
+
|
124 |
+
|
125 |
+
### 4.3 微调命令
|
126 |
+
|
127 |
+
注意:此微调训练为语言模型微调,冻结视觉编码器而放开LLM训练,2B模型全量微调训练的显存大小约为30G。
|
128 |
+
|
129 |
+
```bash
|
130 |
+
# 2B
|
131 |
+
sh paddlemix/examples/ppdocbee/shell/ppdocbee_sft.sh
|
132 |
+
|
133 |
+
# 2B lora
|
134 |
+
sh paddlemix/examples/ppdocbee/shell/ppdocbee_lora.sh
|
135 |
+
```
|
136 |
+
|
137 |
+
注意:默认是公开数据集训练的配置,若需使用示例数据集,请在`ppdocbee_sft.sh`或`ppdocbee_lora.sh`中修改`--meta_path`为`paddlemix/examples/ppdocbee/configs/demo_chartqa_500.json`。
|
138 |
+
|
139 |
+
### 4.4 微调后使用
|
140 |
+
|
141 |
+
只需将`paddlemix/examples/ppdocbee/ppdocbee_infer.py`中的`--model_path`参数修改为微调后的模型路径即可。
|
142 |
+
|
143 |
+
```bash
|
144 |
+
python paddlemix/examples/ppdocbee/ppdocbee_infer.py \
|
145 |
+
--model_path "your_trained_model_path" \
|
146 |
+
--image_file "paddlemix/demo_images/medal_table.png" \
|
147 |
+
--question "识别这份表格的内容"
|
148 |
+
```
|
149 |
+
|
150 |
+
|
151 |
+
## 5. 性能评测
|
152 |
+
|
153 |
+
### 5.1 英文公开评估集指标
|
154 |
+
|
155 |
+
API/Model | DocVQA-test | ChartQA-test | InfoVQA-test | TextVQA-val | OCRBench
|
156 |
+
----------------- | ----------- | ------------ | ------------ | ----------- | --------
|
157 |
+
GPT-4o API | 92.8 | 85.7 | 79.2 | 77.4 | 73.6
|
158 |
+
Gemini-1.5-Pro API| 93.1 | 87.2 | 80.1 | 78.7 | 75.4
|
159 |
+
MiniCPM-V-2-2B | 71.9 | - | - | 74.1 | 60.5
|
160 |
+
SmolVLM-Instruct-2B| 81.6 | - | - | 72.7 | -
|
161 |
+
Aquila-VL-2B | 85.0 | 76.5 | 58.3 | 76.4 | 77.2
|
162 |
+
Mini-Monkey-2B | 87.4 | 76.5 | 60.1 | 76.0 | 79.4
|
163 |
+
InternVL2-2B | 86.9 | 76.2 | 58.9 | 73.4 | 78.1
|
164 |
+
InternVL2.5-2B | 88.7 | **79.2** | 60.9 | 74.3 | 80.4
|
165 |
+
Qwen2-VL-2B | 90.1 | 73.5 | 65.5 | 79.7 | 79.4
|
166 |
+
**PPDocBee-2B** | **90.6** | 74.6 | **66.2** | **81.2** | **82.8**(**83.5**)
|
167 |
+
|
168 |
+
> ⚠️注意:
|
169 |
+
> 1. OCRBench指标归一化到100分制,PPDocBee-2B的OCRBench指标中,82.8是端到端评估的分数,83.5是OCR后处理辅助评估的分数。
|
170 |
+
|
171 |
+
### 5.2 内部业务中文场景评估集指标
|
172 |
+
|
173 |
+
| API/模型 | 总分 | 印刷文字类 | 表格类 | 印章类 | 图表类 |
|
174 |
+
|---------|-----:|---------:|------:|------:|------:|
|
175 |
+
| GPT-4o API | 685 | 436 | 198 | 5 | 46 |
|
176 |
+
| GLM-4V Flash API | 547 | 339 | 169 | 5 | 34 |
|
177 |
+
| InternVL2.5-2B | 596 | 363 | 182 | 4 | **47** |
|
178 |
+
| Qwen2-VL-2B | 680 | 476 | 167 | **8** | 29 |
|
179 |
+
| **PPDocBee-2B** | **765** | **517** | **202** | 5 | 41 |
|
180 |
+
|
181 |
+
印刷文字类 (655张)、表格类 (358张)、印章类 (15张)、图表类 (176张)
|
182 |
+
|
183 |
+
> ⚠️注意:
|
184 |
+
> 1. 内部业务中文场景评测于 2024.12.09日修订,所有图像分辨率 (1680, 1204),共1196条数据。
|
185 |
+
> 2. 内部业务中文场景评估集包括了财报、法律法规、理工科论文、说明书、文科论文、合同、研报等场景,暂时未有计划公开。
|