美團“全能貓”橫空出世！LongCat-Flash-Omni多模態大模型開源即登頂，實時交互快到離譜

當業界還在爭論多模態AI能否真正落地，美團已悄然甩出一張王牌——全新開源大模型 LongCat-Flash-Omni 正式上線，並在多項基準測試中超越多個閉源競品，實現“開源即SOTA”（State-of-the-Art）的罕見突破。這款名字中暗含“全能”之意的AI系統，不僅支持文本、語音、圖像、視頻的實時融合處理，更以近乎零延遲的交互體驗，將本地化多模態智能推向新高度。

LongCat-Flash-Omni的驚豔之處，在於其對複雜跨模態任務的精準掌控。實測顯示，面對“描述一個小球在六邊形空間內的運動軌跡”這類融合物理邏輯與空間推理的問題，模型不僅能準確建模，還能用自然語言清晰解釋動力學過程。在語音識別方面，即便在高噪聲環境下，它仍能精準提取語義;面對模糊圖像或短視頻片段，也能快速定位關鍵信息並生成結構化回答。

這一切得益於其創新的端到端統一架構。不同於傳統多模態模型將各模態分支獨立處理再拼接，LongCat採用深度融合設計，讓文本、音頻、視覺數據在統一表徵空間中對齊與推理。訓練過程中，團隊採用漸進式多模態注入策略——先夯實語言基礎，再逐步引入圖像、語音、視頻數據，使模型在保持語言能力的同時，穩步提升跨模態泛化性能。

更令人意外的是其極致優化的響應速度。得益於Flash推理引擎與輕量化設計，LongCat-Flash-Omni在普通消費級GPU上即可實現流暢對話，用戶在美團官方LongCat APP或網頁端體驗時，幾乎感受不到輸入與回覆之間的延遲，真正實現“所問即所得”的自然交互。

目前，該模型已在美團旗下平臺免費開放，開發者可通過Hugging Face獲取權重，普通用戶則可直接在應用內試用。這一舉動不僅彰顯美團在AI底層技術上的自信，也釋放出推動國產多模態生態發展的明確信號。

在AI競爭從“單模態精度”轉向“多模態協同”的關鍵節點，LongCat-Flash-Omni的出現，既是對技術邊界的突破，也是對應用場景的重新定義。當外賣平臺都能訓練出比肩國際巨頭的多模態大模型，中國AI的下半場，或許纔剛剛開始。

美團“全能貓”橫空出世！LongCat-Flash-Omni多模態大模型開源即登頂，實時交互快到離譜

相關推薦

Snap第三季度營收超預期:與Perplexity AI達成4億美元合作，股價大漲25%

軟銀與 OpenAI 合作在日本成立合資公司，推出企業級 AI 解決方案

OpenAI 解僱奧特曼後曾與 Anthropic 探討合併事宜

Anthropic 推出基於 MCP 的新代碼執行模式，提升 AI Agent 效率

軟銀與 OpenAI 重磅合資本月成立新公司

美團“全能貓”橫空出世！LongCat-Flash-Omni多模態大模型開源即登頂，實時交互快到離譜

相關推薦

Snap第三季度營收超預期:與Perplexity AI達成4億美元合作，股價大漲25%

​軟銀與 OpenAI 合作在日本成立合資公司，推出企業級 AI 解決方案

OpenAI 解僱奧特曼後曾與 Anthropic 探討合併事宜

Anthropic 推出基於 MCP 的新代碼執行模式，提升 AI Agent 效率

軟銀與 OpenAI 重磅合資本月成立新公司

軟銀與 OpenAI 合作在日本成立合資公司，推出企業級 AI 解決方案