Update README.md

1cefdd2 verified about 2 months ago

4.37 kB

	---
	tags:
	- code
	- python
	- php
	- java
	- javascript
	- go
	- ruby
	- rust
	base_model: Shuu12121/CodeModernBERT-Crow
	pipeline_tag: sentence-similarity
	library_name: sentence-transformers
	license: apache-2.0
	datasets:
	- Shuu12121/python-codesearch-filtered
	- Shuu12121/ruby-codesearch-filtered
	- Shuu12121/java-codesearch-filtered
	- Shuu12121/go-codesearch-filtered
	- Shuu12121/rust-codesearch-filtered
	- Shuu12121/javascript-codesearch-filtered
	- Shuu12121/php-codesearch-filtered
	- code-search-net/code_search_net
	language:
	- en
	---
	# Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0 🐦‍⬛

	このモデルは、`Shuu12121/CodeModernBERT-Crow` をベースにした Sentence Transformer モデルであり、PHPとGoのクリーン版データセットを新たに加えることで、さらに高精度な多言語コード検索を実現しています。
	本バージョン（1.0）では、前バージョン (`Crow-Plus`) に対して若干の性能向上が確認されています。

	> This is an enhanced version of `CodeSearch-ModernBERT-Crow-Plus`, based on `CodeModernBERT-Crow`, incorporating clean PHP and Go datasets for improved multilingual code search performance.

	開発者 (Developer): [Shuu12121](https://huggingface.co/Shuu12121)
	ベースモデル (Base Model): [Shuu12121/CodeModernBERT-Crow](https://huggingface.co/Shuu12121/CodeModernBERT-Crow)
	ライセンス (License): Apache-2.0

	---

	## 📊 評価 / Evaluation

	本モデルは、内部評価として MTEB (Massive Text Embedding Benchmark) 相当の環境でテストされ、
	前バージョンよりもさらに高い精度を達成しています。

	### CodeSearchNetRetrieval (標準版) 成績

	\| メトリクス \| スコア \|
	\|--------------------\|-----------\|
	\| nDCG@10 \| 0.8946 \|
	\| Recall@10 \| 0.9597 \|
	\| MAP@10 \| 0.8731 \|
	\| MRR@10 \| 0.8731 \|

	詳細スコア（抜粋）：
	- `ndcg_at_1`: 0.8175
	- `ndcg_at_3`: 0.8810
	- `ndcg_at_5`: 0.8888
	- `recall_at_20`: 0.9672
	- `recall_at_100`: 0.9807
	- `recall_at_1000`: 1.0

	> 前バージョン (`Crow-Plus`) 比較で nDCG@10 がわずかに向上（+0.17pt）しており、より安定した高リコールが得られています。

	---

	### COIRCodeSearchNetRetrieval 成績

	\| メトリクス \| スコア \|
	\|--------------------\|-----------\|
	\| nDCG@10 \| 0.8001 \|
	\| Recall@10 \| 0.8806 \|
	\| MAP@10 \| 0.7742 \|
	\| MRR@10 \| 0.7742 \|

	詳細スコア（抜粋）：
	- `ndcg_at_1`: 0.7168
	- `ndcg_at_3`: 0.7775
	- `ndcg_at_5`: 0.7896
	- `recall_at_20`: 0.9057
	- `recall_at_100`: 0.9495
	- `recall_at_1000`: 0.9782

	> こちらも、従来版より全体的に Recall 向上がみられ、特に Top-20、Top-100段階での検索精度に安定性が出ています。

	---

	## モデル変更点 / Improvements

	\| 項目 \| Crow-Plus \| Crow-Plus-1.0 \|
	\|:---\|:---\|:---\|
	\| 学習データ \| 従来データセット \| PHP・Goのクリーン版追加 \|
	\| COIR nDCG@10 \| 0.7988 \| 0.8001 (+0.13pt) \|
	\| CodeSearchNet nDCG@10 \| 0.8930 \| 0.8946 (+0.16pt) \|
	\| Recall@10 \| 0.9610 \| 0.9597 (ほぼ同等) \|
	\| 特徴 \| 標準構成 \| データ品質向上による安定化 \|

	- MTEB公式には提出していないため、非公式記録です。


	## 使い方 / How to Use

	従来と同様に、`sentence-transformers`ライブラリを用いて簡単に利用可能です。
	（※詳しい使用例はベース版に準じますので省略）

	```python
	from sentence_transformers import SentenceTransformer
	model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0")
	```

	---

	## 注意事項 / Limitations

	- 関数レベルのコード検索に最適化されており、巨大なファイルや不完全コードには注意が必要です。
	- クリーン版追加による改善はあくまで「一般傾向」であり、特定ドメインにおいては追加チューニングが効果的な場合もあります。
	- 本バージョンの結果はMTEB公式には提出されていないため、あくまで参考記録である点にご留意ください。

	---

	## 連絡先 / Contact

	ご質問・フィードバックは、開発者 [Shuu12121](https://huggingface.co/Shuu12121) までご連絡ください。
	📧 [email protected]