阿里 ATH-Token Foundry 聯合中國人民大學高瓴人工智能學院,今日正式宣佈開源首個基於統一科學語法的多領域科學生成基礎模型 LOGOS。在六大代表性科學任務中,該模型憑藉純序列建模範式,一致性地匹配或超越了傳統的領域專用方法。

值得關注的是,該模型展現出了極高的參數效率。僅有 1B 參數量的 LOGOS-1B 模型,在多個核心任務上的表現就成功超越了參數量高達 8×7B 的微軟 NatureLM 語言模型。
首創科學語法統一異構對象
LOGOS 構建了一個涵蓋生物大分子、化學實體以及界面互作等 7 類模態、總計 44.87B tokens 的龐大預訓練語料庫。通過設計共享詞表,它將蛋白質和小分子等原本異構的對象全部編碼爲統一的離散 Token 序列。
這種獨特的科學語法設計,讓不同的科學對象得以在同一個生成空間中被大模型自迴歸地理解。它甚至發明了一種“文字描述法”,無需輸入複雜的 3D 座標,僅靠序列預測就能在腦海中構建出複雜的空間互作規律。

徹底消除預訓練與應用斷層
在傳統科研範式中,換一個研究環節往往需要切換不同的模型,導致模型落地時需要大量的微調。LOGOS 則實現了形式與目標的高度一致,其預訓練數據的序列形式與下游任務的輸入輸出形式完全等同。
這種高度對齊有效消除了預訓練與下游應用之間的鴻溝,無需複雜的適配層即可直接激活生成能力。目前,阿里已將該大模型的模型權重、推理代碼以及技術報告進行了完整開源。
