Pika 1.0 的宣传视频被一些用户认为是“炒作”,但不能否认,它们丰富了人们对多模态 AI 的想象力。多模态 AI 正处于爆发前夜,正走向场景化、实用化、商业化。Pika在技术上属于行业领先水平。Runway、Stability AI、Midjourney等公司也在布局AI视频生成赛道。多模态大模型有望打通物理世界和数字世界之间的屏障。
相关推荐
ElevenLabs炸裂级更新:图像、视频、音乐一站式生成
多模态AI公司ElevenLabs推出集成式内容创作平台,融合图像生成、视频制作、声音合成、音乐创作和音效设计功能,实现从剧本到成品视频的一站式闭环生产,帮助创作者和营销人员告别多平台切换,高效完成商业视频制作。
2025年11月18号 13:57
140.6k
文心大模型5.0重磅发布!百度推全球首个“原生全模态”大模型,李彦宏:智能本身就是最大应用
百度世界大会发布文心大模型5.0,李彦宏将其定义为“原生全模态模型”,实现文本、图像、声音深度融合协同,突破传统多模态拼接方式,推动国产AI进入新纪元。
2025年11月13号 14:37
183.5k
一张合影就能泄露全家信息?央视紧急预警:“读心AI”正让社交晒图变成隐私炸弹
央视警示:日常照片在多模态AI面前正成为隐私泄露新黑洞。AI能轻易从旅行合照中识别住址、身份证号、家庭关系和行程轨迹,普通用户却毫无防备。随着技术普及,隐私风险急剧升高。
2025年11月12号 9:54
140.6k
美团“全能猫”横空出世!LongCat-Flash-Omni多模态大模型开源即登顶,实时交互快到离谱
美团开源多模态大模型LongCat-Flash-Omni实现技术突破,在多项基准测试中超越闭源竞品,达到业界领先水平。该模型支持文本、语音、图像、视频的实时融合处理,具备近乎零延迟的交互能力,将本地化多模态AI应用推向新高度。
2025年11月5号 11:23
143.4k
盲人也能“看见”街景?Google新AI系统让虚拟探索无障碍,科技向善迈出关键一步
谷歌推出StreetReaderAI原型系统,帮助盲人和低视力用户通过自然语言交互自主探索谷歌街景。该系统融合计算机视觉、地理信息系统和大语言模型,实现多模态AI驱动的实时对话式街景体验,突破传统语音播报局限,提升无障碍城市探索自由度。
2025年10月31号 15:53
163.9k
