英偉達發佈了其開放式多模態模型 “Nemotron 3 Nano Omni”,這款新模型將視頻、音頻、圖像和文本的推理能力整合到一個系統中,旨在爲用戶提供更快速和智能的響應。根據英偉達的介紹,這款模型採用了先進的 30B-A3B 混合專家架構,集成了視覺與音頻編碼器,無需依賴額外的感知模型,因此在大規模推理效率上顯著提升。

在多個領域,Nemotron 3 Nano Omni 表現出色,特別是在複雜文檔解析、視頻及音頻理解等方面,已在六大權威排行榜上名列前茅。其獨特的設計使得該模型能夠快速解讀全高清屏幕錄像,極大地改善了智能體與數字環境的交互方式。H Company 的首席執行官 Gautier Cloix 表示,基於該模型,公司能夠實現以前無法達成的快速解讀能力,這標誌着智能體技術的重大進步。
此外,Nemotron 3 Nano Omni 不僅具備卓越的效率,且具備強大的多模態感知精度,其 AI 系統的吞吐量比同類模型高出 9 倍。這使得它在同類產品中獨樹一幟,爲開放式多模態模型樹立了新的效率標杆。英偉達透露,目前該模型已與多家公司的系統進行協作,顯示出強大的應用潛力。
在過去的一年中,Nemotron 3 系列模型,包括 Nano、Super 和 Ultra 型號,累計下載量已突破 5000 萬次,這表明了市場對該模型的高度認可和需求。英偉達的這一新發布無疑將推動多模態技術的發展,爲各行各業帶來更多的智能解決方案。
劃重點:
📈 Nemotron 3 Nano Omni 模型集成視頻、音頻、圖像和文本推理能力,提升智能體響應速度。
🚀 該模型在六大權威排行榜上表現優異,具備卓越的文檔解析和多模態理解能力。
🌍 一年內累計下載量超 5000 萬次,顯示出市場對英偉達多模態技術的強烈需求。
