Tilde AI 發佈開源 TildeOpen LLM：支持多種歐洲語言的超大語言模型

Latvian 語言技術公司 Tilde 於2025年9月3日發佈了 TildeOpen LLM，這是一個開源的基礎大語言模型（LLM），旨在支持歐洲語言，特別是那些較少被代表的國家和地區語言。這一舉措標誌着歐盟在語言公平和數字主權方面邁出了重要的一步。

TildeOpen LLM 是一個擁有300億參數的稠密解碼器模型，採用了 CC-BY-4.0的寬鬆許可證，能夠支持從拉脫維亞語、立陶宛語到烏克蘭語、土耳其語等多種語言。該模型的訓練是在歐洲的超級計算機 LUMI（芬蘭）和 JUPITER 上進行的，使用了歐盟委員會的大型人工智能大獎挑戰賽所提供的200萬 GPU 小時的計算資源。

在技術細節方面，TildeOpen LLM 通過受 EleutherAI 啓發的 GPT-NeoX 腳本進行訓練，共進行了45萬次更新，使用了約2萬億個令牌。其訓練過程包含三階段採樣:首先在語言間均勻分佈，其次是對高數據量語言的自然分佈進行增強，最後再進行均勻的掃查以確保平衡。模型的超參數包括60層、嵌入維度6144、48個注意力頭、8192-token 的上下文窗口，以及使用 SwiGLU 激活、RoPE 位置編碼和 RMSNorm 層規範化。

在語言公平和數據主權方面，傳統的主流模型往往側重於英語和其他主要語言，導致在處理波羅的海、斯拉夫及其他較小的歐洲語言時表現不佳，常常出現語法錯誤和奇怪的措辭。而 TildeOpen 通過引入 “公平的標記器”，使得不同語言的文本以相似方式進行表示，從而減少標記數量，提高較少代表語言的推理效率。此外，組織可以選擇在本地數據中心或符合歐盟要求的安全雲中自我託管，確保遵循 GDPR 及其他數據保護法規，從而解決了與美國或亞洲託管模型相關的主權問題。

TildeOpen 作爲基礎模型，預計會推出更多專門化版本，例如經過指令調優的翻譯模型，這將進一步增強其功能。拉脫維亞通過 Tilde 的努力，期望在全球科技領域佔據一席之地，同時致力於保護語言多樣性。

huggingface:https://huggingface.co/TildeAI/TildeOpen-30b

技術:https://tilde.ai/lv/tildeopen-llm/

劃重點:
🌍 TildeOpen LLM 是一個支持多種歐洲語言的開源大語言模型，特別關注小型國家語言的代表性。
💻 模型訓練利用了歐洲超級計算機資源，採用先進的三階段採樣技術，確保不同語言的平衡性和公平性。
🔒 組織可自我託管該模型，符合 GDPR 等數據保護法規，提升數據主權的保障。

Tilde AI 發佈開源 TildeOpen LLM：支持多種歐洲語言的超大語言模型

相關推薦

馬斯克官宣 Grok 4.5 全平臺上線：比不過 Fable，但快、便宜、能幹活

Stripe洽購AI模型聚合平臺OpenRouter，估值或從 13 億飆升至 100 億美元

Runway推出生成式媒體AI模型路由平臺系統，全面開啓開發者架構服務

馬斯克呼籲AI實驗室攜手審查安全問題，願與奧爾特曼"冰釋前嫌"併力挺中國AI加入合作

國產端側大模型第一次登上全球旗艦：面壁 MiniCPM 裝進三星 Galaxy Z Fold8 系列