ラトビア語の言語技術企業であるTildeは、2025年9月3日にTildeOpen LLMをリリースしました。これは、ヨーロッパの言語、特に代表されていない小国や地域の言語をサポートすることを目的としたオープンソースのベース大規模言語モデル(LLM)です。この取り組みは、EUが言語の公平性とデジタル主権において重要な一歩を踏み出したことを示しています。

TildeOpen LLMは、300億のパラメータを持つ密なデコードモデルで、CC-BY-4.0の柔軟なライセンスを使用し、ラトビア語、リトアニア語からウクライナ語、トルコ語に至るまで多くの言語をサポートします。このモデルのトレーニングは、フィンランドのスーパーコンピュータLUMI(LUMI)およびJUPITERで行われ、EU委員会が提供した大型AI賞チャレンジコンテストの200万GPU時間の計算リソースを使用しました。
技術的な詳細について説明すると、TildeOpen LLMはEleutherAIの影響を受けたGPT-NeoXスクリプトでトレーニングされ、45万回のアップデートが行われ、約2兆のトークンが使用されました。トレーニングプロセスには3段階のサンプリングが含まれています。最初は言語間で均等に分布させ、次に高データ量言語の自然な分布を強化し、最後に均等なスキャンを行い、バランスを保つようにしました。モデルの超パラメータには、60層、埋め込み次元6144、48個の注意頭、8192トークンのコンテキストウィンドウがあり、SwiGLU活性化、RoPE位置符号化、RMSNormレイヤー正規化が使用されています。
言語の公平性とデータ主権に関して、従来の主流モデルは英語や他の主要言語に焦点を当てており、バルト諸国、スラブ語、およびその他の小さなヨーロッパ言語の処理ではよく誤りや不自然な表現が発生していました。TildeOpenは「公平なマーカー」を導入することで、異なる言語のテキストを類似した方法で表現し、マーカー数を減らし、少ない代表言語の推論効率を向上させました。さらに、組織はローカルデータセンターまたはEUの要件を満たす安全なクラウドでモデルを自己ホストすることができ、GDPRなどのデータ保護規制に準拠し、アメリカやアジアでのホスティングに関連する主権問題を解決することができます。
TildeOpenはベースモデルとして、より専門的なバージョンが予定されています。例えば、指示チューニングされた翻訳モデルなど、これにより機能がさらに強化されます。ラトビアは、Tildeの努力を通じて、グローバルなテクノロジー分野で一席を占めたいと考えており、言語の多様性を保護することにも貢献したいと考えています。
huggingface:https://huggingface.co/TildeAI/TildeOpen-30b
技術:https://tilde.ai/lv/tildeopen-llm/
ポイント:
🌍 TildeOpen LLMは、多数のヨーロッパ言語をサポートするオープンソースの大規模言語モデルであり、特に小国言語の代表性に注目しています。
💻 モデルのトレーニングはヨーロッパのスーパーコンピュータリソースを使用し、進んだ3段階サンプリング技術により、さまざまな言語のバランスと公平性を確保しています。
🔒 組織はこのモデルを自前でホストでき、GDPRなどのデータ保護規制に適合し、データ主権の保障を高めることができます。
