LingweiMeng commited on
Commit
33826ed
·
verified ·
1 Parent(s): 65765ee

Update tokenizer_config.json

Browse files
Files changed (1) hide show
  1. tokenizer_config.json +0 -109
tokenizer_config.json CHANGED
@@ -1,115 +1,6 @@
1
  {
2
  "add_bos_token": false,
3
  "add_prefix_space": false,
4
- "additional_special_tokens": [
5
- "<|endoftext|>",
6
- "<|startoftranscript|>",
7
- "<|en|>",
8
- "<|zh|>",
9
- "<|de|>",
10
- "<|es|>",
11
- "<|ru|>",
12
- "<|ko|>",
13
- "<|fr|>",
14
- "<|ja|>",
15
- "<|pt|>",
16
- "<|tr|>",
17
- "<|pl|>",
18
- "<|ca|>",
19
- "<|nl|>",
20
- "<|ar|>",
21
- "<|sv|>",
22
- "<|it|>",
23
- "<|id|>",
24
- "<|hi|>",
25
- "<|fi|>",
26
- "<|vi|>",
27
- "<|he|>",
28
- "<|uk|>",
29
- "<|el|>",
30
- "<|ms|>",
31
- "<|cs|>",
32
- "<|ro|>",
33
- "<|da|>",
34
- "<|hu|>",
35
- "<|ta|>",
36
- "<|no|>",
37
- "<|th|>",
38
- "<|ur|>",
39
- "<|hr|>",
40
- "<|bg|>",
41
- "<|lt|>",
42
- "<|la|>",
43
- "<|mi|>",
44
- "<|ml|>",
45
- "<|cy|>",
46
- "<|sk|>",
47
- "<|te|>",
48
- "<|fa|>",
49
- "<|lv|>",
50
- "<|bn|>",
51
- "<|sr|>",
52
- "<|az|>",
53
- "<|sl|>",
54
- "<|kn|>",
55
- "<|et|>",
56
- "<|mk|>",
57
- "<|br|>",
58
- "<|eu|>",
59
- "<|is|>",
60
- "<|hy|>",
61
- "<|ne|>",
62
- "<|mn|>",
63
- "<|bs|>",
64
- "<|kk|>",
65
- "<|sq|>",
66
- "<|sw|>",
67
- "<|gl|>",
68
- "<|mr|>",
69
- "<|pa|>",
70
- "<|si|>",
71
- "<|km|>",
72
- "<|sn|>",
73
- "<|yo|>",
74
- "<|so|>",
75
- "<|af|>",
76
- "<|oc|>",
77
- "<|ka|>",
78
- "<|be|>",
79
- "<|tg|>",
80
- "<|sd|>",
81
- "<|gu|>",
82
- "<|am|>",
83
- "<|yi|>",
84
- "<|lo|>",
85
- "<|uz|>",
86
- "<|fo|>",
87
- "<|ht|>",
88
- "<|ps|>",
89
- "<|tk|>",
90
- "<|nn|>",
91
- "<|mt|>",
92
- "<|sa|>",
93
- "<|lb|>",
94
- "<|my|>",
95
- "<|bo|>",
96
- "<|tl|>",
97
- "<|mg|>",
98
- "<|as|>",
99
- "<|tt|>",
100
- "<|haw|>",
101
- "<|ln|>",
102
- "<|ha|>",
103
- "<|ba|>",
104
- "<|jw|>",
105
- "<|su|>",
106
- "<|translate|>",
107
- "<|transcribe|>",
108
- "<|startoflm|>",
109
- "<|startofprev|>",
110
- "<|nocaptions|>",
111
- "<|notimestamps|>"
112
- ],
113
  "bos_token": "<|endoftext|>",
114
  "clean_up_tokenization_spaces": true,
115
  "eos_token": "<|endoftext|>",
 
1
  {
2
  "add_bos_token": false,
3
  "add_prefix_space": false,
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4
  "bos_token": "<|endoftext|>",
5
  "clean_up_tokenization_spaces": true,
6
  "eos_token": "<|endoftext|>",