意味表現の分野では、「英語中心主義」の壁を打ち破ることが、大規模モデルの進化における新たな戦いとなっています。
3月26日、

実力抜群:MTEB 評価で11種類の最優秀を獲得
MTEBというEmbeddingモデルにおいて最も権威のあるランキングで、
11種類の優勝: ドイツ語、フランス語、日本語、コード検索など11の言語および分野のランキングで第1位となりました。
レベルを超えた挑戦: 家族の中で軽量版のモデルでも、同サイズの業界で有名な大規模モデルを何度も上回りました。
深いカバー: 評価タスクは医療クエスチョン&アンサー、コード検索などの430の細分化されたシナリオを含み、完全なカバーを実現しました。

多機能な理解:282種類の自然言語と40以上のプログラミング言語を精通
多言語の強化: 中低資源言語(北欧語系、東南アジア語系など)のサポートを特に強化しており、本当にグローバルなカバーを実現しています。
プログラミングの専門家: Python、Java、Goなど40種類以上のプログラミング言語を深く理解し、RAG(検索拡張生成)やコードアシスタント開発者にとって理想的な選択肢です。
高品質なサンプル: 6,000万件の厳しくクリーンされた公開リソースサンプルを基盤としており、モデル知識の純粋性と広範さを確保しています。

極限的な効率:80Mから14Bまでの全サイズのファミリー
モバイル端末からクラウドまで、すべてのシナリオに対応するために、
端末対応: 80M-330Mの小規模モデルは「モデルの裁断」と「知識蒸留」技術を使用し、モバイルデバイス上でスムーズに動作します。
「サッカー」ブラックテクノロジー: 動的次元調整をサポートしており、ユーザーは8次元からフル次元まで自由に切り替えることができ、推論速度とストレージコストの間に完璧なバランスを見つけることができます。
完全なオープンソース:透明度がコミュニティの基準を定義する
多くの「ブラックボックス」モデルとは異なり、
全量公開: あらゆるサイズのモデルウェイトがダウンロード可能です。
詳細な透明性: 完全な技術報告書を公表し、トレーニングプロセスを明らかにしています。
再現可能性: すべてのコードとチェックポイントを解放し、世界中の研究者がその上に二次開発を行うことを奨励しています。
結び:壁を打ち破り、AIの無限の可能性を探る
