當業界還在爭論多模態AI能否真正落地,美團已悄然甩出一張王牌——全新開源大模型 LongCat-Flash-Omni 正式上線,並在多項基準測試中超越多個閉源競品,實現“開源即SOTA”(State-of-the-Art)的罕見突破。這款名字中暗含“全能”之意的AI系統,不僅支持文本、語音、圖像、視頻的實時融合處理,更以近乎零延遲的交互體驗,將本地化多模態智能推向新高度。
LongCat-Flash-Omni的驚豔之處,在於其對複雜跨模態任務的精準掌控。實測顯示,面對“描述一個小球在六邊形空間內的運動軌跡”這類融合物理邏輯與空間推理的問題,模型不僅能準確建模,還能用自然語言清晰解釋動力學過程。在語音識別方面,即便在高噪聲環境下,它仍能精準提取語義;面對模糊圖像或短視頻片段,也能快速定位關鍵信息並生成結構化回答。

這一切得益於其創新的端到端統一架構。不同於傳統多模態模型將各模態分支獨立處理再拼接,LongCat採用深度融合設計,讓文本、音頻、視覺數據在統一表徵空間中對齊與推理。訓練過程中,團隊採用漸進式多模態注入策略——先夯實語言基礎,再逐步引入圖像、語音、視頻數據,使模型在保持語言能力的同時,穩步提升跨模態泛化性能。
更令人意外的是其極致優化的響應速度。得益於Flash推理引擎與輕量化設計,LongCat-Flash-Omni在普通消費級GPU上即可實現流暢對話,用戶在美團官方LongCat APP或網頁端體驗時,幾乎感受不到輸入與回覆之間的延遲,真正實現“所問即所得”的自然交互。

目前,該模型已在美團旗下平臺免費開放,開發者可通過Hugging Face獲取權重,普通用戶則可直接在應用內試用。這一舉動不僅彰顯美團在AI底層技術上的自信,也釋放出推動國產多模態生態發展的明確信號。
在AI競爭從“單模態精度”轉向“多模態協同”的關鍵節點,LongCat-Flash-Omni的出現,既是對技術邊界的突破,也是對應用場景的重新定義。當外賣平臺都能訓練出比肩國際巨頭的多模態大模型,中國AI的下半場,或許纔剛剛開始。
