|
--- |
|
tags: |
|
- code |
|
- python |
|
- php |
|
- java |
|
- javascript |
|
- go |
|
- ruby |
|
- rust |
|
base_model: Shuu12121/CodeModernBERT-Crow |
|
pipeline_tag: sentence-similarity |
|
library_name: sentence-transformers |
|
license: apache-2.0 |
|
datasets: |
|
- Shuu12121/python-codesearch-filtered |
|
- Shuu12121/ruby-codesearch-filtered |
|
- Shuu12121/java-codesearch-filtered |
|
- Shuu12121/go-codesearch-filtered |
|
- Shuu12121/rust-codesearch-filtered |
|
- Shuu12121/javascript-codesearch-filtered |
|
- Shuu12121/php-codesearch-filtered |
|
- code-search-net/code_search_net |
|
language: |
|
- en |
|
--- |
|
# Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0 🐦⬛ |
|
|
|
このモデルは、`Shuu12121/CodeModernBERT-Crow` をベースにした Sentence Transformer モデルであり、**PHPとGoのクリーン版データセット**を新たに加えることで、さらに高精度な多言語コード検索を実現しています。 |
|
本バージョン(1.0)では、前バージョン (`Crow-Plus`) に対して若干の性能向上が確認されています。 |
|
|
|
> This is an enhanced version of `CodeSearch-ModernBERT-Crow-Plus`, based on `CodeModernBERT-Crow`, incorporating clean PHP and Go datasets for improved multilingual code search performance. |
|
|
|
開発者 (Developer): [Shuu12121](https://huggingface.co/Shuu12121) |
|
ベースモデル (Base Model): [Shuu12121/CodeModernBERT-Crow](https://huggingface.co/Shuu12121/CodeModernBERT-Crow) |
|
ライセンス (License): Apache-2.0 |
|
|
|
--- |
|
|
|
## 📊 評価 / Evaluation |
|
|
|
本モデルは、内部評価として MTEB (Massive Text Embedding Benchmark) 相当の環境でテストされ、 |
|
前バージョンよりもさらに高い精度を達成しています。 |
|
|
|
### **CodeSearchNetRetrieval (標準版) 成績** |
|
|
|
| メトリクス | スコア | |
|
|--------------------|-----------| |
|
| **nDCG@10** | **0.8946** | |
|
| Recall@10 | 0.9597 | |
|
| MAP@10 | 0.8731 | |
|
| MRR@10 | 0.8731 | |
|
|
|
詳細スコア(抜粋): |
|
- `ndcg_at_1`: 0.8175 |
|
- `ndcg_at_3`: 0.8810 |
|
- `ndcg_at_5`: 0.8888 |
|
- `recall_at_20`: 0.9672 |
|
- `recall_at_100`: 0.9807 |
|
- `recall_at_1000`: 1.0 |
|
|
|
> 前バージョン (`Crow-Plus`) 比較で nDCG@10 がわずかに向上(+0.17pt)しており、より安定した高リコールが得られています。 |
|
|
|
--- |
|
|
|
### **COIRCodeSearchNetRetrieval 成績** |
|
|
|
| メトリクス | スコア | |
|
|--------------------|-----------| |
|
| **nDCG@10** | **0.8001** | |
|
| Recall@10 | 0.8806 | |
|
| MAP@10 | 0.7742 | |
|
| MRR@10 | 0.7742 | |
|
|
|
詳細スコア(抜粋): |
|
- `ndcg_at_1`: 0.7168 |
|
- `ndcg_at_3`: 0.7775 |
|
- `ndcg_at_5`: 0.7896 |
|
- `recall_at_20`: 0.9057 |
|
- `recall_at_100`: 0.9495 |
|
- `recall_at_1000`: 0.9782 |
|
|
|
> こちらも、従来版より全体的に Recall 向上がみられ、特に Top-20、Top-100段階での検索精度に安定性が出ています。 |
|
|
|
--- |
|
|
|
## モデル変更点 / Improvements |
|
|
|
| 項目 | Crow-Plus | Crow-Plus-1.0 | |
|
|:---|:---|:---| |
|
| 学習データ | 従来データセット | PHP・Goのクリーン版追加 | |
|
| COIR nDCG@10 | 0.7988 | 0.8001 (+0.13pt) | |
|
| CodeSearchNet nDCG@10 | 0.8930 | 0.8946 (+0.16pt) | |
|
| Recall@10 | 0.9610 | 0.9597 (ほぼ同等) | |
|
| 特徴 | 標準構成 | データ品質向上による安定化 | |
|
|
|
- MTEB公式には提出していないため、**非公式記録**です。 |
|
|
|
|
|
## 使い方 / How to Use |
|
|
|
従来と同様に、`sentence-transformers`ライブラリを用いて簡単に利用可能です。 |
|
(※詳しい使用例はベース版に準じますので省略) |
|
|
|
```python |
|
from sentence_transformers import SentenceTransformer |
|
model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0") |
|
``` |
|
|
|
--- |
|
|
|
## 注意事項 / Limitations |
|
|
|
- 関数レベルのコード検索に最適化されており、巨大なファイルや不完全コードには注意が必要です。 |
|
- クリーン版追加による改善はあくまで「一般傾向」であり、特定ドメインにおいては追加チューニングが効果的な場合もあります。 |
|
- 本バージョンの結果はMTEB公式には提出されていないため、**あくまで参考記録**である点にご留意ください。 |
|
|
|
--- |
|
|
|
## 連絡先 / Contact |
|
|
|
ご質問・フィードバックは、開発者 [Shuu12121](https://huggingface.co/Shuu12121) までご連絡ください。 |
|
📧 [email protected] |