SMARTICT commited on
Commit
79bd61c
·
verified ·
1 Parent(s): 53d6995

Add new CrossEncoder model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,475 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ tags:
4
+ - sentence-transformers
5
+ - cross-encoder
6
+ - generated_from_trainer
7
+ - dataset_size:26004
8
+ - loss:BinaryCrossEntropyLoss
9
+ base_model: jinaai/jina-reranker-v2-base-multilingual
10
+ pipeline_tag: text-ranking
11
+ library_name: sentence-transformers
12
+ metrics:
13
+ - map
14
+ - mrr@10
15
+ - ndcg@10
16
+ model-index:
17
+ - name: jina-reranker-v2-base-multilingual test
18
+ results:
19
+ - task:
20
+ type: cross-encoder-reranking
21
+ name: Cross Encoder Reranking
22
+ dataset:
23
+ name: gooaq dev
24
+ type: gooaq-dev
25
+ metrics:
26
+ - type: map
27
+ value: 0.9094
28
+ name: Map
29
+ - type: mrr@10
30
+ value: 0.9248
31
+ name: Mrr@10
32
+ - type: ndcg@10
33
+ value: 0.9386
34
+ name: Ndcg@10
35
+ - task:
36
+ type: cross-encoder-reranking
37
+ name: Cross Encoder Reranking
38
+ dataset:
39
+ name: NanoMSMARCO R100
40
+ type: NanoMSMARCO_R100
41
+ metrics:
42
+ - type: map
43
+ value: 0.5847
44
+ name: Map
45
+ - type: mrr@10
46
+ value: 0.588
47
+ name: Mrr@10
48
+ - type: ndcg@10
49
+ value: 0.6644
50
+ name: Ndcg@10
51
+ - task:
52
+ type: cross-encoder-reranking
53
+ name: Cross Encoder Reranking
54
+ dataset:
55
+ name: NanoNFCorpus R100
56
+ type: NanoNFCorpus_R100
57
+ metrics:
58
+ - type: map
59
+ value: 0.4027
60
+ name: Map
61
+ - type: mrr@10
62
+ value: 0.6892
63
+ name: Mrr@10
64
+ - type: ndcg@10
65
+ value: 0.4778
66
+ name: Ndcg@10
67
+ - task:
68
+ type: cross-encoder-reranking
69
+ name: Cross Encoder Reranking
70
+ dataset:
71
+ name: NanoNQ R100
72
+ type: NanoNQ_R100
73
+ metrics:
74
+ - type: map
75
+ value: 0.6937
76
+ name: Map
77
+ - type: mrr@10
78
+ value: 0.7346
79
+ name: Mrr@10
80
+ - type: ndcg@10
81
+ value: 0.7569
82
+ name: Ndcg@10
83
+ - task:
84
+ type: cross-encoder-nano-beir
85
+ name: Cross Encoder Nano BEIR
86
+ dataset:
87
+ name: NanoBEIR R100 mean
88
+ type: NanoBEIR_R100_mean
89
+ metrics:
90
+ - type: map
91
+ value: 0.5604
92
+ name: Map
93
+ - type: mrr@10
94
+ value: 0.6706
95
+ name: Mrr@10
96
+ - type: ndcg@10
97
+ value: 0.633
98
+ name: Ndcg@10
99
+ ---
100
+
101
+ # jina-reranker-v2-base-multilingual test
102
+
103
+ This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [jinaai/jina-reranker-v2-base-multilingual](https://huggingface.co/jinaai/jina-reranker-v2-base-multilingual) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
104
+
105
+ ## Model Details
106
+
107
+ ### Model Description
108
+ - **Model Type:** Cross Encoder
109
+ - **Base model:** [jinaai/jina-reranker-v2-base-multilingual](https://huggingface.co/jinaai/jina-reranker-v2-base-multilingual) <!-- at revision eed787badf7784e1a25c0eaa428627c8cbef511e -->
110
+ - **Maximum Sequence Length:** 1024 tokens
111
+ - **Number of Output Labels:** 1 label
112
+ <!-- - **Training Dataset:** Unknown -->
113
+ <!-- - **Language:** Unknown -->
114
+ - **License:** apache-2.0
115
+
116
+ ### Model Sources
117
+
118
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
119
+ - **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
120
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
121
+ - **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
122
+
123
+ ## Usage
124
+
125
+ ### Direct Usage (Sentence Transformers)
126
+
127
+ First install the Sentence Transformers library:
128
+
129
+ ```bash
130
+ pip install -U sentence-transformers
131
+ ```
132
+
133
+ Then you can load this model and run inference.
134
+ ```python
135
+ from sentence_transformers import CrossEncoder
136
+
137
+ # Download from the 🤗 Hub
138
+ model = CrossEncoder("SMARTICT/jina-reranker-v2-base-multilingual-wiki-tr-rag-prefix")
139
+ # Get scores for pairs of texts
140
+ pairs = [
141
+ ['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur.'],
142
+ ['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır.'],
143
+ ['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir.'],
144
+ ['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Taşıma kuvveti, bir cismin havada yukarı doğru kaldırılmasına neden olan kuvvettir. Direnç kuvveti ise cismin hareketini yavaşlatan, ona karşı koyan kuvvettir. Hava taşımacılığında her iki kuvvet de önemlidir. Uçaklar uçabilmek için yeterli taşıma kuvveti üretmelidir. Ancak aynı zamanda direnci minimize etmek için tasarlanırlar çünkü direnç yakıt tüketimini artırır. Kara taşıtlarında ise düşük hızlarda direnç kuvveti ön plandadır. Ancak yüksek hızlarda, örneğin Formula 1 araçlarında, taşıma kuvveti de önemli hale gelir çünkü aracın yol tutuşunu sağlar.'],
145
+ ['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Evet, yazıda da belirtildiği gibi kuvvet makineleri yakıt kullanan ısı makineleri ve doğal enerji kaynaklarını kullanan makinelere ayrılır. Örneğin, araçlarda kullanılan motorlar ısı makineleridir çünkü benzin veya dizel yakıtı kullanarak mekanik enerji üretirler. Rüzgar türbinleri ise rüzgarın kinetik enerjisini elektrik enerjisine dönüştüren doğal enerji kaynaklı kuvvet makineleridir.'],
146
+ ]
147
+ scores = model.predict(pairs)
148
+ print(scores.shape)
149
+ # (5,)
150
+
151
+ # Or rank different texts based on similarity to a single text
152
+ ranks = model.rank(
153
+ 'query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?',
154
+ [
155
+ 'passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur.',
156
+ 'passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır.',
157
+ 'passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir.',
158
+ 'passage: Taşıma kuvveti, bir cismin havada yukarı doğru kaldırılmasına neden olan kuvvettir. Direnç kuvveti ise cismin hareketini yavaşlatan, ona karşı koyan kuvvettir. Hava taşımacılığında her iki kuvvet de önemlidir. Uçaklar uçabilmek için yeterli taşıma kuvveti üretmelidir. Ancak aynı zamanda direnci minimize etmek için tasarlanırlar çünkü direnç yakıt tüketimini artırır. Kara taşıtlarında ise düşük hızlarda direnç kuvveti ön plandadır. Ancak yüksek hızlarda, örneğin Formula 1 araçlarında, taşıma kuvveti de önemli hale gelir çünkü aracın yol tutuşunu sağlar.',
159
+ 'passage: Evet, yazıda da belirtildiği gibi kuvvet makineleri yakıt kullanan ısı makineleri ve doğal enerji kaynaklarını kullanan makinelere ayrılır. Örneğin, araçlarda kullanılan motorlar ısı makineleridir çünkü benzin veya dizel yakıtı kullanarak mekanik enerji üretirler. Rüzgar türbinleri ise rüzgarın kinetik enerjisini elektrik enerjisine dönüştüren doğal enerji kaynaklı kuvvet makineleridir.',
160
+ ]
161
+ )
162
+ # [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
163
+ ```
164
+
165
+ <!--
166
+ ### Direct Usage (Transformers)
167
+
168
+ <details><summary>Click to see the direct usage in Transformers</summary>
169
+
170
+ </details>
171
+ -->
172
+
173
+ <!--
174
+ ### Downstream Usage (Sentence Transformers)
175
+
176
+ You can finetune this model on your own dataset.
177
+
178
+ <details><summary>Click to expand</summary>
179
+
180
+ </details>
181
+ -->
182
+
183
+ <!--
184
+ ### Out-of-Scope Use
185
+
186
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
187
+ -->
188
+
189
+ ## Evaluation
190
+
191
+ ### Metrics
192
+
193
+ #### Cross Encoder Reranking
194
+
195
+ * Dataset: `gooaq-dev`
196
+ * Evaluated with [<code>CrossEncoderRerankingEvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CrossEncoderRerankingEvaluator) with these parameters:
197
+ ```json
198
+ {
199
+ "at_k": 10,
200
+ "always_rerank_positives": false
201
+ }
202
+ ```
203
+
204
+ | Metric | Value |
205
+ |:------------|:---------------------|
206
+ | map | 0.9094 (-0.0382) |
207
+ | mrr@10 | 0.9248 (-0.0228) |
208
+ | **ndcg@10** | **0.9386 (-0.0118)** |
209
+
210
+ #### Cross Encoder Reranking
211
+
212
+ * Datasets: `NanoMSMARCO_R100`, `NanoNFCorpus_R100` and `NanoNQ_R100`
213
+ * Evaluated with [<code>CrossEncoderRerankingEvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CrossEncoderRerankingEvaluator) with these parameters:
214
+ ```json
215
+ {
216
+ "at_k": 10,
217
+ "always_rerank_positives": true
218
+ }
219
+ ```
220
+
221
+ | Metric | NanoMSMARCO_R100 | NanoNFCorpus_R100 | NanoNQ_R100 |
222
+ |:------------|:---------------------|:---------------------|:---------------------|
223
+ | map | 0.5847 (+0.0951) | 0.4027 (+0.1417) | 0.6937 (+0.2741) |
224
+ | mrr@10 | 0.5880 (+0.1105) | 0.6892 (+0.1894) | 0.7346 (+0.3079) |
225
+ | **ndcg@10** | **0.6644 (+0.1240)** | **0.4778 (+0.1527)** | **0.7569 (+0.2562)** |
226
+
227
+ #### Cross Encoder Nano BEIR
228
+
229
+ * Dataset: `NanoBEIR_R100_mean`
230
+ * Evaluated with [<code>CrossEncoderNanoBEIREvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CrossEncoderNanoBEIREvaluator) with these parameters:
231
+ ```json
232
+ {
233
+ "dataset_names": [
234
+ "msmarco",
235
+ "nfcorpus",
236
+ "nq"
237
+ ],
238
+ "rerank_k": 100,
239
+ "at_k": 10,
240
+ "always_rerank_positives": true
241
+ }
242
+ ```
243
+
244
+ | Metric | Value |
245
+ |:------------|:---------------------|
246
+ | map | 0.5604 (+0.1703) |
247
+ | mrr@10 | 0.6706 (+0.2026) |
248
+ | **ndcg@10** | **0.6330 (+0.1776)** |
249
+
250
+ <!--
251
+ ## Bias, Risks and Limitations
252
+
253
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
254
+ -->
255
+
256
+ <!--
257
+ ### Recommendations
258
+
259
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
260
+ -->
261
+
262
+ ## Training Details
263
+
264
+ ### Training Dataset
265
+
266
+ #### Unnamed Dataset
267
+
268
+ * Size: 26,004 training samples
269
+ * Columns: <code>question</code>, <code>answer</code>, and <code>label</code>
270
+ * Approximate statistics based on the first 1000 samples:
271
+ | | question | answer | label |
272
+ |:--------|:------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------|:------------------------------------------------|
273
+ | type | string | string | int |
274
+ | details | <ul><li>min: 27 characters</li><li>mean: 78.97 characters</li><li>max: 182 characters</li></ul> | <ul><li>min: 44 characters</li><li>mean: 273.24 characters</li><li>max: 836 characters</li></ul> | <ul><li>0: ~81.00%</li><li>1: ~19.00%</li></ul> |
275
+ * Samples:
276
+ | question | answer | label |
277
+ |:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
278
+ | <code>query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?</code> | <code>passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur.</code> | <code>1</code> |
279
+ | <code>query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?</code> | <code>passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır.</code> | <code>0</code> |
280
+ | <code>query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?</code> | <code>passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir.</code> | <code>0</code> |
281
+ * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
282
+ ```json
283
+ {
284
+ "activation_fn": "torch.nn.modules.linear.Identity",
285
+ "pos_weight": 5
286
+ }
287
+ ```
288
+
289
+ ### Training Hyperparameters
290
+ #### Non-Default Hyperparameters
291
+
292
+ - `eval_strategy`: steps
293
+ - `per_device_train_batch_size`: 16
294
+ - `per_device_eval_batch_size`: 16
295
+ - `learning_rate`: 2e-05
296
+ - `num_train_epochs`: 2
297
+ - `warmup_ratio`: 0.1
298
+ - `bf16`: True
299
+ - `dataloader_num_workers`: 4
300
+ - `load_best_model_at_end`: True
301
+
302
+ #### All Hyperparameters
303
+ <details><summary>Click to expand</summary>
304
+
305
+ - `overwrite_output_dir`: False
306
+ - `do_predict`: False
307
+ - `eval_strategy`: steps
308
+ - `prediction_loss_only`: True
309
+ - `per_device_train_batch_size`: 16
310
+ - `per_device_eval_batch_size`: 16
311
+ - `per_gpu_train_batch_size`: None
312
+ - `per_gpu_eval_batch_size`: None
313
+ - `gradient_accumulation_steps`: 1
314
+ - `eval_accumulation_steps`: None
315
+ - `torch_empty_cache_steps`: None
316
+ - `learning_rate`: 2e-05
317
+ - `weight_decay`: 0.0
318
+ - `adam_beta1`: 0.9
319
+ - `adam_beta2`: 0.999
320
+ - `adam_epsilon`: 1e-08
321
+ - `max_grad_norm`: 1.0
322
+ - `num_train_epochs`: 2
323
+ - `max_steps`: -1
324
+ - `lr_scheduler_type`: linear
325
+ - `lr_scheduler_kwargs`: {}
326
+ - `warmup_ratio`: 0.1
327
+ - `warmup_steps`: 0
328
+ - `log_level`: passive
329
+ - `log_level_replica`: warning
330
+ - `log_on_each_node`: True
331
+ - `logging_nan_inf_filter`: True
332
+ - `save_safetensors`: True
333
+ - `save_on_each_node`: False
334
+ - `save_only_model`: False
335
+ - `restore_callback_states_from_checkpoint`: False
336
+ - `no_cuda`: False
337
+ - `use_cpu`: False
338
+ - `use_mps_device`: False
339
+ - `seed`: 42
340
+ - `data_seed`: None
341
+ - `jit_mode_eval`: False
342
+ - `use_ipex`: False
343
+ - `bf16`: True
344
+ - `fp16`: False
345
+ - `fp16_opt_level`: O1
346
+ - `half_precision_backend`: auto
347
+ - `bf16_full_eval`: False
348
+ - `fp16_full_eval`: False
349
+ - `tf32`: None
350
+ - `local_rank`: 0
351
+ - `ddp_backend`: None
352
+ - `tpu_num_cores`: None
353
+ - `tpu_metrics_debug`: False
354
+ - `debug`: []
355
+ - `dataloader_drop_last`: False
356
+ - `dataloader_num_workers`: 4
357
+ - `dataloader_prefetch_factor`: None
358
+ - `past_index`: -1
359
+ - `disable_tqdm`: False
360
+ - `remove_unused_columns`: True
361
+ - `label_names`: None
362
+ - `load_best_model_at_end`: True
363
+ - `ignore_data_skip`: False
364
+ - `fsdp`: []
365
+ - `fsdp_min_num_params`: 0
366
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
367
+ - `tp_size`: 0
368
+ - `fsdp_transformer_layer_cls_to_wrap`: None
369
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
370
+ - `deepspeed`: None
371
+ - `label_smoothing_factor`: 0.0
372
+ - `optim`: adamw_torch
373
+ - `optim_args`: None
374
+ - `adafactor`: False
375
+ - `group_by_length`: False
376
+ - `length_column_name`: length
377
+ - `ddp_find_unused_parameters`: None
378
+ - `ddp_bucket_cap_mb`: None
379
+ - `ddp_broadcast_buffers`: False
380
+ - `dataloader_pin_memory`: True
381
+ - `dataloader_persistent_workers`: False
382
+ - `skip_memory_metrics`: True
383
+ - `use_legacy_prediction_loop`: False
384
+ - `push_to_hub`: False
385
+ - `resume_from_checkpoint`: None
386
+ - `hub_model_id`: None
387
+ - `hub_strategy`: every_save
388
+ - `hub_private_repo`: None
389
+ - `hub_always_push`: False
390
+ - `gradient_checkpointing`: False
391
+ - `gradient_checkpointing_kwargs`: None
392
+ - `include_inputs_for_metrics`: False
393
+ - `include_for_metrics`: []
394
+ - `eval_do_concat_batches`: True
395
+ - `fp16_backend`: auto
396
+ - `push_to_hub_model_id`: None
397
+ - `push_to_hub_organization`: None
398
+ - `mp_parameters`:
399
+ - `auto_find_batch_size`: False
400
+ - `full_determinism`: False
401
+ - `torchdynamo`: None
402
+ - `ray_scope`: last
403
+ - `ddp_timeout`: 1800
404
+ - `torch_compile`: False
405
+ - `torch_compile_backend`: None
406
+ - `torch_compile_mode`: None
407
+ - `include_tokens_per_second`: False
408
+ - `include_num_input_tokens_seen`: False
409
+ - `neftune_noise_alpha`: None
410
+ - `optim_target_modules`: None
411
+ - `batch_eval_metrics`: False
412
+ - `eval_on_start`: False
413
+ - `use_liger_kernel`: False
414
+ - `eval_use_gather_object`: False
415
+ - `average_tokens_across_devices`: False
416
+ - `prompts`: None
417
+ - `batch_sampler`: batch_sampler
418
+ - `multi_dataset_batch_sampler`: proportional
419
+
420
+ </details>
421
+
422
+ ### Training Logs
423
+ | Epoch | Step | Training Loss | gooaq-dev_ndcg@10 | NanoMSMARCO_R100_ndcg@10 | NanoNFCorpus_R100_ndcg@10 | NanoNQ_R100_ndcg@10 | NanoBEIR_R100_mean_ndcg@10 |
424
+ |:------:|:----:|:-------------:|:-----------------:|:------------------------:|:-------------------------:|:-------------------:|:--------------------------:|
425
+ | -1 | -1 | - | 0.9555 (+0.0050) | 0.6801 (+0.1397) | 0.4668 (+0.1417) | 0.7932 (+0.2925) | 0.6467 (+0.1913) |
426
+ | 0.0006 | 1 | 0.2737 | - | - | - | - | - |
427
+ | 0.6150 | 1000 | 0.0997 | - | - | - | - | - |
428
+ | 1.2300 | 2000 | 0.019 | - | - | - | - | - |
429
+ | 1.8450 | 3000 | 0.0202 | - | - | - | - | - |
430
+ | -1 | -1 | - | 0.9386 (-0.0118) | 0.6644 (+0.1240) | 0.4778 (+0.1527) | 0.7569 (+0.2562) | 0.6330 (+0.1776) |
431
+
432
+
433
+ ### Framework Versions
434
+ - Python: 3.11.12
435
+ - Sentence Transformers: 4.0.2
436
+ - Transformers: 4.51.1
437
+ - PyTorch: 2.6.0+cu124
438
+ - Accelerate: 1.5.2
439
+ - Datasets: 3.5.0
440
+ - Tokenizers: 0.21.1
441
+
442
+ ## Citation
443
+
444
+ ### BibTeX
445
+
446
+ #### Sentence Transformers
447
+ ```bibtex
448
+ @inproceedings{reimers-2019-sentence-bert,
449
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
450
+ author = "Reimers, Nils and Gurevych, Iryna",
451
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
452
+ month = "11",
453
+ year = "2019",
454
+ publisher = "Association for Computational Linguistics",
455
+ url = "https://arxiv.org/abs/1908.10084",
456
+ }
457
+ ```
458
+
459
+ <!--
460
+ ## Glossary
461
+
462
+ *Clearly define terms in order to be accessible across audiences.*
463
+ -->
464
+
465
+ <!--
466
+ ## Model Card Authors
467
+
468
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
469
+ -->
470
+
471
+ <!--
472
+ ## Model Card Contact
473
+
474
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
475
+ -->
config.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "auto_map": {
7
+ "AutoConfig": "jinaai/jina-reranker-v2-base-multilingual--configuration_xlm_roberta.XLMRobertaFlashConfig",
8
+ "AutoModel": "jinaai/jina-reranker-v2-base-multilingual--modeling_xlm_roberta.XLMRobertaModel",
9
+ "AutoModelForSequenceClassification": "jinaai/jina-reranker-v2-base-multilingual--modeling_xlm_roberta.XLMRobertaForSequenceClassification"
10
+ },
11
+ "bos_token_id": 0,
12
+ "classifier_dropout": null,
13
+ "emb_pooler": null,
14
+ "eos_token_id": 2,
15
+ "hidden_act": "gelu",
16
+ "hidden_dropout_prob": 0.1,
17
+ "hidden_size": 768,
18
+ "id2label": {
19
+ "0": "LABEL_0"
20
+ },
21
+ "initializer_range": 0.02,
22
+ "intermediate_size": 3072,
23
+ "label2id": {
24
+ "LABEL_0": 0
25
+ },
26
+ "layer_norm_eps": 1e-05,
27
+ "load_trained_adapters": false,
28
+ "lora_adaptations": null,
29
+ "lora_alpha": 1,
30
+ "lora_dropout_p": 0.0,
31
+ "lora_main_params_trainable": false,
32
+ "lora_rank": 4,
33
+ "matryoshka_dimensions": null,
34
+ "max_position_embeddings": 1026,
35
+ "num_attention_heads": 12,
36
+ "num_hidden_layers": 12,
37
+ "output_past": true,
38
+ "pad_token_id": 1,
39
+ "position_embedding_type": "absolute",
40
+ "sentence_transformers": {
41
+ "activation_fn": "torch.nn.modules.activation.Sigmoid",
42
+ "version": "4.0.2"
43
+ },
44
+ "torch_dtype": "bfloat16",
45
+ "transformers_version": "4.51.1",
46
+ "truncate_dim": null,
47
+ "type_vocab_size": 1,
48
+ "use_cache": false,
49
+ "use_flash_attn": true,
50
+ "vocab_size": 250002
51
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fdf8499deb23bf5c3f57d81fb0ead69069c709591d483febae71a0054fdff975
3
+ size 556892306
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e802fe5337779428818439760a1e6161ed36ceed72d4ebcbda9c139a2108fc99
3
+ size 17082988
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 1024,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizerFast",
54
+ "unk_token": "<unk>"
55
+ }