物理人工智能領域迎來顛覆性突破。6月1日,英偉達正式發佈了面向物理人工智能的開放世界基礎大模型——Cosmos3。作爲全球首款全開源、全模態的物理AI大模型,該模型依託創新的混合Transformer架構打造,在單一系統中融合了視覺推理、世界生成與動作預測能力,有望將物理人工智能的訓練與評估週期從數月大幅縮短至數天。

針對具身智能長期面臨的“在有限數據和零散仿真框架下難以在真實場景中泛化”的行業痛點,Cosmos3給出了全新的解決方案。該模型基於涵蓋數十億條文本、圖像、視頻、音效及動作軌跡的龐大物理人工智能數據集訓練而成,能夠原生理解並生成跨模態內容,其物理仿真精度達到了業界領先水平。

image.png

在技術架構上,Cosmos3創新性地結合了推理Transformer與生成類Transformer。模型會首先深度解析物體的交互規律、運動狀態以及時空關聯,隨後再精準完成視頻生成與動作軌跡預測。這種設計賦予了它極強的多模態圖文理解能力、物理環境仿真預判能力以及輔助機器人完成專項任務的動作策略能力。在包括Artificial Analysis、Physics-IQ、RoboLab等在內的多項物理人工智能主流評測基準中,Cosmos3均在開源模型範疇中位列榜首。

爲了全面適配不同的研發階段,英偉達此次推出了多個版本:專注於機器人與自動駕駛模型二次訓練、追求極致精度的 Cosmos3Super,以及可在數秒內完成高品質視頻解析與動作推理的 Cosmos3Nano,這兩個版本目前已正式上線;而主打邊緣端實時推理的 Cosmos3Edge 版本也已在發佈計劃中。

在發佈大模型的同時,英偉達還聯合Agile Robots、Black Forest Labs、Generalist、LTX、Runway以及Skild AI等全球頂尖的世界模型研發團隊與人工智能開發者,共同發起成立了“英偉達宇宙聯盟”(NVIDIA Cosmos Coalition)。英偉達創始人兼首席執行官黃仁勳表示,隨着多模態推理與世界模型的接連突破,物理人工智能的變革時代已經到來。該系列開源前沿模型的推出,將助力全球開發者實現技術跨越,打造出真正能在現實世界中感知、推理並執行動作的下一代智能體系統。