研究發現谷歌 AI 模型 Veo-3 可生逼真成手術視頻但缺乏醫學邏輯理解

近日，研究人員對谷歌最新的視頻生成人工智能模型 Veo-3進行了測試，結果顯示該模型雖然能夠生成非常逼真的手術視頻，但在醫學操作的理解上卻存在顯著不足。在研究中，研究團隊提供了一張手術圖像，要求 Veo-3預測接下來8秒內的手術進展。爲此，他們構建了一個名爲 SurgVeo 的評測標準，涵蓋50段真實的腹腔和腦部手術視頻。

研究小組邀請了四位經驗豐富的外科醫生對 AI 生成的視頻進行獨立評分，評分標準涵蓋了視覺真實性、器械使用的合理性、組織反應及手術邏輯性等四個方面。儘管外科醫生對 Veo-3生成的視頻質量給予了很高的評價，稱其 “清晰得令人震驚”，但深入分析顯示，AI 在醫學邏輯上的表現卻大打折扣。在腹腔手術測試中，Veo-3的視覺合理性得分爲3.72分，但器械操作僅得1.78分，組織反應1.64分，而手術邏輯性評分更是低至1.61分。

特別是在神經外科場景中，Veo-3的表現更爲遜色，其在8秒後手術邏輯性的得分僅爲1.13分。研究團隊發現，超過93% 的錯誤源於醫學邏輯層面，例如虛構不存在的手術器械和不符合生理規律的組織反應。嘗試爲模型提供更多的上下文信息，如手術類型和具體操作階段，結果並未顯著改善其表現。

該研究表明，當前的視頻生成 AI 距離真正理解醫學操作仍有很大差距。雖然未來這些系統可能會用於醫生培訓和術前規劃，但現有模型尚未達到安全可靠的應用水平。研究團隊計劃將 SurgVeo 的數據集開源，旨在推動學術界提升 AI 在醫學理解方面的能力。同時，這也提醒我們，在醫學培訓中使用此類生成的視頻存在嚴重風險，可能導致誤導性的學習和錯誤的手術技巧。

劃重點:
🌟 Veo-3模型能生成逼真的手術視頻，但缺乏醫學邏輯理解。
🔍 超過93% 的錯誤源於醫學邏輯問題，嚴重影響視頻準確性。
📈 研究團隊計劃開源數據集，以促進 AI 在醫學理解方面的進步。

ChatGPT周活用戶逼近 10 億大關：晚了 7 個月，但上線不到四年

據OpenAI內部消息，ChatGPT周活躍用戶即將突破10億，里程碑晚於原計劃約7個月。但上線不到四年獲此規模，仍是全球增速最快產品之一。發言人未予置評。增長放緩背後，谷歌Gemini深度整合數十億用戶生態，競爭加劇，增長引擎逐漸換擋。

1100 多名 AI 員工聯名呼籲美國政府踩剎車，奧爾特曼罕見表態支持

OpenAI、Anthropic、谷歌和Meta等頭部AI公司的1134名員工聯名公開信，呼籲美國政府支持國際合作，開發技術與治理工具，必要時對AI發展“有意識地把控節奏”。該倡議名爲“把控前沿”，罕見獲OpenAI CEO奧特曼公開支持，Anthropic CEO及聯合創始人也參與簽署，凸顯業界對有序推動AI安全的緊迫共識。

研究發現谷歌 AI 模型 Veo-3 可生逼真成手術視頻但缺乏醫學邏輯理解

相關推薦

Grok 長出"建造"本能：動動嘴就能生出帶域名的網站與應用，xAI 把聊天框推向開發臺

ChatGPT周活用戶逼近 10 億大關：晚了 7 個月，但上線不到四年

1100 多名 AI 員工聯名呼籲美國政府踩剎車，奧爾特曼罕見表態支持

蘋果系統更新首次點名感謝AI：Claude、Codex聯手揪出多項漏洞

AI讓漏洞發現速度飆升，今年安全缺陷數量預計翻番，黑客也在加速跟上