Latvian 語言技術公司 Tilde 於2025年9月3日發佈了 TildeOpen LLM,這是一個開源的基礎大語言模型(LLM),旨在支持歐洲語言,特別是那些較少被代表的國家和地區語言。這一舉措標誌着歐盟在語言公平和數字主權方面邁出了重要的一步。

image.png

TildeOpen LLM 是一個擁有300億參數的稠密解碼器模型,採用了 CC-BY-4.0的寬鬆許可證,能夠支持從拉脫維亞語、立陶宛語到烏克蘭語、土耳其語等多種語言。該模型的訓練是在歐洲的超級計算機 LUMI(芬蘭)和 JUPITER 上進行的,使用了歐盟委員會的大型人工智能大獎挑戰賽所提供的200萬 GPU 小時的計算資源。

在技術細節方面,TildeOpen LLM 通過受 EleutherAI 啓發的 GPT-NeoX 腳本進行訓練,共進行了45萬次更新,使用了約2萬億個令牌。其訓練過程包含三階段採樣:首先在語言間均勻分佈,其次是對高數據量語言的自然分佈進行增強,最後再進行均勻的掃查以確保平衡。模型的超參數包括60層、嵌入維度6144、48個注意力頭、8192-token 的上下文窗口,以及使用 SwiGLU 激活、RoPE 位置編碼和 RMSNorm 層規範化。

在語言公平和數據主權方面,傳統的主流模型往往側重於英語和其他主要語言,導致在處理波羅的海、斯拉夫及其他較小的歐洲語言時表現不佳,常常出現語法錯誤和奇怪的措辭。而 TildeOpen 通過引入 “公平的標記器”,使得不同語言的文本以相似方式進行表示,從而減少標記數量,提高較少代表語言的推理效率。此外,組織可以選擇在本地數據中心或符合歐盟要求的安全雲中自我託管,確保遵循 GDPR 及其他數據保護法規,從而解決了與美國或亞洲託管模型相關的主權問題。

TildeOpen 作爲基礎模型,預計會推出更多專門化版本,例如經過指令調優的翻譯模型,這將進一步增強其功能。拉脫維亞通過 Tilde 的努力,期望在全球科技領域佔據一席之地,同時致力於保護語言多樣性。

huggingface:https://huggingface.co/TildeAI/TildeOpen-30b

技術:https://tilde.ai/lv/tildeopen-llm/

劃重點:  

🌍 TildeOpen LLM 是一個支持多種歐洲語言的開源大語言模型,特別關注小型國家語言的代表性。  

💻 模型訓練利用了歐洲超級計算機資源,採用先進的三階段採樣技術,確保不同語言的平衡性和公平性。  

🔒 組織可自我託管該模型,符合 GDPR 等數據保護法規,提升數據主權的保障。