近日,研究人員對谷歌最新的視頻生成人工智能模型 Veo-3進行了測試,結果顯示該模型雖然能夠生成非常逼真的手術視頻,但在醫學操作的理解上卻存在顯著不足。在研究中,研究團隊提供了一張手術圖像,要求 Veo-3預測接下來8秒內的手術進展。爲此,他們構建了一個名爲 SurgVeo 的評測標準,涵蓋50段真實的腹腔和腦部手術視頻。

研究小組邀請了四位經驗豐富的外科醫生對 AI 生成的視頻進行獨立評分,評分標準涵蓋了視覺真實性、器械使用的合理性、組織反應及手術邏輯性等四個方面。儘管外科醫生對 Veo-3生成的視頻質量給予了很高的評價,稱其 “清晰得令人震驚”,但深入分析顯示,AI 在醫學邏輯上的表現卻大打折扣。在腹腔手術測試中,Veo-3的視覺合理性得分爲3.72分,但器械操作僅得1.78分,組織反應1.64分,而手術邏輯性評分更是低至1.61分。
特別是在神經外科場景中,Veo-3的表現更爲遜色,其在8秒後手術邏輯性的得分僅爲1.13分。研究團隊發現,超過93% 的錯誤源於醫學邏輯層面,例如虛構不存在的手術器械和不符合生理規律的組織反應。嘗試爲模型提供更多的上下文信息,如手術類型和具體操作階段,結果並未顯著改善其表現。

該研究表明,當前的視頻生成 AI 距離真正理解醫學操作仍有很大差距。雖然未來這些系統可能會用於醫生培訓和術前規劃,但現有模型尚未達到安全可靠的應用水平。研究團隊計劃將 SurgVeo 的數據集開源,旨在推動學術界提升 AI 在醫學理解方面的能力。同時,這也提醒我們,在醫學培訓中使用此類生成的視頻存在嚴重風險,可能導致誤導性的學習和錯誤的手術技巧。
劃重點:
🌟 Veo-3模型能生成逼真的手術視頻,但缺乏醫學邏輯理解。
🔍 超過93% 的錯誤源於醫學邏輯問題,嚴重影響視頻準確性。
📈 研究團隊計劃開源數據集,以促進 AI 在醫學理解方面的進步。
