Shuu12121's picture
Update README.md
1cefdd2 verified
---
tags:
- code
- python
- php
- java
- javascript
- go
- ruby
- rust
base_model: Shuu12121/CodeModernBERT-Crow
pipeline_tag: sentence-similarity
library_name: sentence-transformers
license: apache-2.0
datasets:
- Shuu12121/python-codesearch-filtered
- Shuu12121/ruby-codesearch-filtered
- Shuu12121/java-codesearch-filtered
- Shuu12121/go-codesearch-filtered
- Shuu12121/rust-codesearch-filtered
- Shuu12121/javascript-codesearch-filtered
- Shuu12121/php-codesearch-filtered
- code-search-net/code_search_net
language:
- en
---
# Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0 🐦‍⬛
このモデルは、`Shuu12121/CodeModernBERT-Crow` をベースにした Sentence Transformer モデルであり、**PHPとGoのクリーン版データセット**を新たに加えることで、さらに高精度な多言語コード検索を実現しています。
本バージョン(1.0)では、前バージョン (`Crow-Plus`) に対して若干の性能向上が確認されています。
> This is an enhanced version of `CodeSearch-ModernBERT-Crow-Plus`, based on `CodeModernBERT-Crow`, incorporating clean PHP and Go datasets for improved multilingual code search performance.
開発者 (Developer): [Shuu12121](https://huggingface.co/Shuu12121)
ベースモデル (Base Model): [Shuu12121/CodeModernBERT-Crow](https://huggingface.co/Shuu12121/CodeModernBERT-Crow)
ライセンス (License): Apache-2.0
---
## 📊 評価 / Evaluation
本モデルは、内部評価として MTEB (Massive Text Embedding Benchmark) 相当の環境でテストされ、
前バージョンよりもさらに高い精度を達成しています。
### **CodeSearchNetRetrieval (標準版) 成績**
| メトリクス | スコア |
|--------------------|-----------|
| **nDCG@10** | **0.8946** |
| Recall@10 | 0.9597 |
| MAP@10 | 0.8731 |
| MRR@10 | 0.8731 |
詳細スコア(抜粋):
- `ndcg_at_1`: 0.8175
- `ndcg_at_3`: 0.8810
- `ndcg_at_5`: 0.8888
- `recall_at_20`: 0.9672
- `recall_at_100`: 0.9807
- `recall_at_1000`: 1.0
> 前バージョン (`Crow-Plus`) 比較で nDCG@10 がわずかに向上(+0.17pt)しており、より安定した高リコールが得られています。
---
### **COIRCodeSearchNetRetrieval 成績**
| メトリクス | スコア |
|--------------------|-----------|
| **nDCG@10** | **0.8001** |
| Recall@10 | 0.8806 |
| MAP@10 | 0.7742 |
| MRR@10 | 0.7742 |
詳細スコア(抜粋):
- `ndcg_at_1`: 0.7168
- `ndcg_at_3`: 0.7775
- `ndcg_at_5`: 0.7896
- `recall_at_20`: 0.9057
- `recall_at_100`: 0.9495
- `recall_at_1000`: 0.9782
> こちらも、従来版より全体的に Recall 向上がみられ、特に Top-20、Top-100段階での検索精度に安定性が出ています。
---
## モデル変更点 / Improvements
| 項目 | Crow-Plus | Crow-Plus-1.0 |
|:---|:---|:---|
| 学習データ | 従来データセット | PHP・Goのクリーン版追加 |
| COIR nDCG@10 | 0.7988 | 0.8001 (+0.13pt) |
| CodeSearchNet nDCG@10 | 0.8930 | 0.8946 (+0.16pt) |
| Recall@10 | 0.9610 | 0.9597 (ほぼ同等) |
| 特徴 | 標準構成 | データ品質向上による安定化 |
- MTEB公式には提出していないため、**非公式記録**です。
## 使い方 / How to Use
従来と同様に、`sentence-transformers`ライブラリを用いて簡単に利用可能です。
(※詳しい使用例はベース版に準じますので省略)
```python
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0")
```
---
## 注意事項 / Limitations
- 関数レベルのコード検索に最適化されており、巨大なファイルや不完全コードには注意が必要です。
- クリーン版追加による改善はあくまで「一般傾向」であり、特定ドメインにおいては追加チューニングが効果的な場合もあります。
- 本バージョンの結果はMTEB公式には提出されていないため、**あくまで参考記録**である点にご留意ください。
---
## 連絡先 / Contact
ご質問・フィードバックは、開発者 [Shuu12121](https://huggingface.co/Shuu12121) までご連絡ください。
📧 [email protected]