File size: 4,368 Bytes
a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 a5c0020 1cefdd2 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 |
---
tags:
- code
- python
- php
- java
- javascript
- go
- ruby
- rust
base_model: Shuu12121/CodeModernBERT-Crow
pipeline_tag: sentence-similarity
library_name: sentence-transformers
license: apache-2.0
datasets:
- Shuu12121/python-codesearch-filtered
- Shuu12121/ruby-codesearch-filtered
- Shuu12121/java-codesearch-filtered
- Shuu12121/go-codesearch-filtered
- Shuu12121/rust-codesearch-filtered
- Shuu12121/javascript-codesearch-filtered
- Shuu12121/php-codesearch-filtered
- code-search-net/code_search_net
language:
- en
---
# Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0 🐦⬛
このモデルは、`Shuu12121/CodeModernBERT-Crow` をベースにした Sentence Transformer モデルであり、**PHPとGoのクリーン版データセット**を新たに加えることで、さらに高精度な多言語コード検索を実現しています。
本バージョン(1.0)では、前バージョン (`Crow-Plus`) に対して若干の性能向上が確認されています。
> This is an enhanced version of `CodeSearch-ModernBERT-Crow-Plus`, based on `CodeModernBERT-Crow`, incorporating clean PHP and Go datasets for improved multilingual code search performance.
開発者 (Developer): [Shuu12121](https://huggingface.co/Shuu12121)
ベースモデル (Base Model): [Shuu12121/CodeModernBERT-Crow](https://huggingface.co/Shuu12121/CodeModernBERT-Crow)
ライセンス (License): Apache-2.0
---
## 📊 評価 / Evaluation
本モデルは、内部評価として MTEB (Massive Text Embedding Benchmark) 相当の環境でテストされ、
前バージョンよりもさらに高い精度を達成しています。
### **CodeSearchNetRetrieval (標準版) 成績**
| メトリクス | スコア |
|--------------------|-----------|
| **nDCG@10** | **0.8946** |
| Recall@10 | 0.9597 |
| MAP@10 | 0.8731 |
| MRR@10 | 0.8731 |
詳細スコア(抜粋):
- `ndcg_at_1`: 0.8175
- `ndcg_at_3`: 0.8810
- `ndcg_at_5`: 0.8888
- `recall_at_20`: 0.9672
- `recall_at_100`: 0.9807
- `recall_at_1000`: 1.0
> 前バージョン (`Crow-Plus`) 比較で nDCG@10 がわずかに向上(+0.17pt)しており、より安定した高リコールが得られています。
---
### **COIRCodeSearchNetRetrieval 成績**
| メトリクス | スコア |
|--------------------|-----------|
| **nDCG@10** | **0.8001** |
| Recall@10 | 0.8806 |
| MAP@10 | 0.7742 |
| MRR@10 | 0.7742 |
詳細スコア(抜粋):
- `ndcg_at_1`: 0.7168
- `ndcg_at_3`: 0.7775
- `ndcg_at_5`: 0.7896
- `recall_at_20`: 0.9057
- `recall_at_100`: 0.9495
- `recall_at_1000`: 0.9782
> こちらも、従来版より全体的に Recall 向上がみられ、特に Top-20、Top-100段階での検索精度に安定性が出ています。
---
## モデル変更点 / Improvements
| 項目 | Crow-Plus | Crow-Plus-1.0 |
|:---|:---|:---|
| 学習データ | 従来データセット | PHP・Goのクリーン版追加 |
| COIR nDCG@10 | 0.7988 | 0.8001 (+0.13pt) |
| CodeSearchNet nDCG@10 | 0.8930 | 0.8946 (+0.16pt) |
| Recall@10 | 0.9610 | 0.9597 (ほぼ同等) |
| 特徴 | 標準構成 | データ品質向上による安定化 |
- MTEB公式には提出していないため、**非公式記録**です。
## 使い方 / How to Use
従来と同様に、`sentence-transformers`ライブラリを用いて簡単に利用可能です。
(※詳しい使用例はベース版に準じますので省略)
```python
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0")
```
---
## 注意事項 / Limitations
- 関数レベルのコード検索に最適化されており、巨大なファイルや不完全コードには注意が必要です。
- クリーン版追加による改善はあくまで「一般傾向」であり、特定ドメインにおいては追加チューニングが効果的な場合もあります。
- 本バージョンの結果はMTEB公式には提出されていないため、**あくまで参考記録**である点にご留意ください。
---
## 連絡先 / Contact
ご質問・フィードバックは、開発者 [Shuu12121](https://huggingface.co/Shuu12121) までご連絡ください。
📧 [email protected] |