Pika 1.0 的宣傳視頻被一些用戶認爲是“炒作”,但不能否認,它們豐富了人們對多模態 AI 的想象力。多模態 AI 正處於爆發前夜,正走向場景化、實用化、商業化。Pika在技術上屬於行業領先水平。Runway、Stability AI、Midjourney等公司也在佈局AI視頻生成賽道。多模態大模型有望打通物理世界和數字世界之間的屏障。
相關推薦
ElevenLabs炸裂級更新:圖像、視頻、音樂一站式生成
多模態AI公司ElevenLabs推出集成式內容創作平臺,融合圖像生成、視頻製作、聲音合成、音樂創作和音效設計功能,實現從劇本到成品視頻的一站式閉環生產,幫助創作者和營銷人員告別多平臺切換,高效完成商業視頻製作。
Nov 18, 2025
139.5k
文心大模型5.0重磅發佈!百度推全球首個“原生全模態”大模型,李彥宏:智能本身就是最大應用
百度世界大會發布文心大模型5.0,李彥宏將其定義爲“原生全模態模型”,實現文本、圖像、聲音深度融合協同,突破傳統多模態拼接方式,推動國產AI進入新紀元。
Nov 13, 2025
167.7k
一張合影就能泄露全家信息?央視緊急預警:“讀心AI”正讓社交曬圖變成隱私炸彈
央視警示:日常照片在多模態AI面前正成爲隱私泄露新黑洞。AI能輕易從旅行合照中識別住址、身份證號、家庭關係和行程軌跡,普通用戶卻毫無防備。隨着技術普及,隱私風險急劇升高。
Nov 12, 2025
140.6k
美團“全能貓”橫空出世!LongCat-Flash-Omni多模態大模型開源即登頂,實時交互快到離譜
美團開源多模態大模型LongCat-Flash-Omni實現技術突破,在多項基準測試中超越閉源競品,達到業界領先水平。該模型支持文本、語音、圖像、視頻的實時融合處理,具備近乎零延遲的交互能力,將本地化多模態AI應用推向新高度。
Nov 5, 2025
143.4k
盲人也能“看見”街景?Google新AI系統讓虛擬探索無障礙,科技向善邁出關鍵一步
谷歌推出StreetReaderAI原型系統,幫助盲人和低視力用戶通過自然語言交互自主探索谷歌街景。該系統融合計算機視覺、地理信息系統和大語言模型,實現多模態AI驅動的實時對話式街景體驗,突破傳統語音播報侷限,提升無障礙城市探索自由度。
Oct 31, 2025
163.9k
