全球首款全開源全模態物理AI大模型Cosmos3 發佈，英偉達聯手行業巨頭成立宇宙聯盟

物理人工智能領域迎來顛覆性突破。6月1日，英偉達正式發佈了面向物理人工智能的開放世界基礎大模型——Cosmos3。作爲全球首款全開源、全模態的物理AI大模型，該模型依託創新的混合Transformer架構打造，在單一系統中融合了視覺推理、世界生成與動作預測能力，有望將物理人工智能的訓練與評估週期從數月大幅縮短至數天。

針對具身智能長期面臨的“在有限數據和零散仿真框架下難以在真實場景中泛化”的行業痛點，Cosmos3給出了全新的解決方案。該模型基於涵蓋數十億條文本、圖像、視頻、音效及動作軌跡的龐大物理人工智能數據集訓練而成，能夠原生理解並生成跨模態內容，其物理仿真精度達到了業界領先水平。

在技術架構上，Cosmos3創新性地結合了推理Transformer與生成類Transformer。模型會首先深度解析物體的交互規律、運動狀態以及時空關聯，隨後再精準完成視頻生成與動作軌跡預測。這種設計賦予了它極強的多模態圖文理解能力、物理環境仿真預判能力以及輔助機器人完成專項任務的動作策略能力。在包括Artificial Analysis、Physics-IQ、RoboLab等在內的多項物理人工智能主流評測基準中，Cosmos3均在開源模型範疇中位列榜首。

爲了全面適配不同的研發階段，英偉達此次推出了多個版本:專注於機器人與自動駕駛模型二次訓練、追求極致精度的 Cosmos3Super，以及可在數秒內完成高品質視頻解析與動作推理的 Cosmos3Nano，這兩個版本目前已正式上線;而主打邊緣端實時推理的 Cosmos3Edge 版本也已在發佈計劃中。

在發佈大模型的同時，英偉達還聯合Agile Robots、Black Forest Labs、Generalist、LTX、Runway以及Skild AI等全球頂尖的世界模型研發團隊與人工智能開發者，共同發起成立了“英偉達宇宙聯盟”（NVIDIA Cosmos Coalition）。英偉達創始人兼首席執行官黃仁勳表示，隨着多模態推理與世界模型的接連突破，物理人工智能的變革時代已經到來。該系列開源前沿模型的推出，將助力全球開發者實現技術跨越，打造出真正能在現實世界中感知、推理並執行動作的下一代智能體系統。

英偉達雙塔 AI 模型開源發佈，文本生成速度提升 2.42 倍、畫質保留 98.7%

英偉達發佈Nemotron-Labs-TwoTower離散擴散語言模型，解決大模型逐token生成速度慢的痛點，權重已在Huggingface開源。該模型複用現有骨幹網預訓練權重，無需從頭訓練，顯著降低成本。採用60B雙塔架構，兩座30B網絡並行協同，每塔激活3B參數並搭載128個可路由專家模塊，提升生成效率。

全球首款全開源全模態物理AI大模型Cosmos3 發佈，英偉達聯手行業巨頭成立宇宙聯盟

相關推薦

谷歌TPU戰略轉向：從內部工具到對外商用，直接挑戰英偉達AI芯片霸主地位

英偉達營收逼近千億大關，黃仁勳親自迴應架構延期傳聞

英偉達雙塔 AI 模型開源發佈，文本生成速度提升 2.42 倍、畫質保留 98.7%

AI雲平臺Together AI完成8億美元C輪融資，估值達83億美元、年預訂額超11億

性能提升超兩倍：英偉達發佈 Nemotron-Labs-TwoTower 擴散語言模型