最近、ジョンズ・ホプキンス大学の研究チームは、mmBERTをリリースしました。これは現在の多言語自然言語処理分野の空白を埋めるための新しい多言語エンコーダーです。このモデルは複数のタスクでXLM-Rを上回り、以前のモデルより2〜4倍速く動作し、多言語アプリケーションの研究と開発にさらに強力なサポートを提供しています。

mmBERTのアーキテクチャは、基本モデルとサブモデルの2つの主要な構成で構成されています。基本モデルは22層のトランスフォーマーを持ち、隠れ層の次元は1152で、総パラメータ数は約3億0700万です。一方、サブモデルのパラメータ数は1億4000万です。mmBERTは最新のGemma2トークナイザーを使用しており、25万6千語の語彙をサポートしています。ローテーション位置埋め込み(RoPE)とFlashAttention2技術により、処理効率が顕著に向上しています。また、シーケンス長は1024トークンから8192トークンに拡張されており、これによりより長い文脈情報を処理できるようになりました。

トレーニングデータについては、mmBERTは1833の言語をカバーする3兆のトークンを使用しています。そのうち、英語は全体の語彙の中で10%〜34%を占めています。トレーニングは3つの段階に分けられ、予備トレーニング、中間トレーニング、減衰段階です。各段階において、モデルは徐々に多くの言語や高品質なデータに触れていきます。この方法により、低資源言語の性能が向上します。
mmBERTはいくつかのベンチマークテストで優れた性能を示しています。英語の自然言語理解(GLUE)タスクでは、mmBERTの基本モデルのスコアは86.3であり、XLM-Rの83.3を上回っています。多言語自然言語理解(XTREME)タスクでは、mmBERTのスコアは72.8で、XLM-Rの70.4を上回っています。また、埋め込みタスクやコード検索タスクでも優れた性能を発揮し、さまざまな応用シーンにおけるポテンシャルを示しています。
低資源言語に特に注目を払い、これらの言語がトレーニング中に十分に活用されることを確保しています。複数のベンチマークテストで、ファローア語やティグレニャ語などの低資源言語でのmmBERTの性能は他の大規模モデルを上回っていることが証明されており、訓練が適切に行われたエンコーダーモデルが低資源環境の課題に効果的に対応できることを示しています。
mmBERTは、多言語処理の速度と効率を向上させ、次の世代の多言語自然言語処理システムの基盤を築きました。効率的でオープンな方法で多言語エンコーダーの可能性を再定義し、新たな時代の幕開けを示しています。
github:https://github.com/JHU-CLSP/mmBERT?tab=readme-ov-file
ポイント:
🌍 mmBERTは複数のタスクでXLM-Rを上回り、多言語NLPの新基準となりました。
⚡ このモデルは2〜4倍の高速化を実現し、最大8192トークンの入力をサポートしています。
📊 mmBERTは低資源言語のトレーニング性能に特に注目しており、強力な適応能力と広範な応用可能性を示しています。
