視頻會議巨頭“跨界”登頂，Zoom 憑藉聯邦 AI 刷新全球最難 AI 考試紀錄

長期以來，大模型領域的華山論劍一直由谷歌、OpenAI 及 Anthropic 等實驗室把持。然而，上週視頻會議巨頭 Zoom 投下了一枚震撼彈:其人工智能系統在被譽爲“人類最後的考試”（Humanity's Last Exam， HLE）的頂級基準測試中，以 48.1% 的成績刷新了世界紀錄，超越了此前由谷歌 Gemini3Pro 保持的45.8%。

會議開會

不練模型練“兵法”:聯邦式 AI 路徑

面對“一家非底層模型廠商如何反超模型巨頭”的質疑，Zoom 首席技術官、前微軟 AI 大將黃學東（Xuedong Huang）給出了截然不同的答案。Zoom 並非通過燒錢訓練自己的萬億參數大模型，而是開發了一套精密的“聯邦式人工智能方法”:

Z 評分器（Z-Scorer）: 系統的核心大腦，負責實時評估來自 OpenAI、Google 和 Anthropic 等多個模型的響應，挑選出針對特定任務的最優解。
探索-驗證-聯合策略: 這是一套智能體（Agent）工作流，通過讓多個人工智能系統進行“辯證協作”，互相挑戰並完善推理結果。
流量控制器: 簡單來說，Zoom 構建了一個極其聰明的人工智能“調度中心”，通過集成而非自研，實現了“超越任何單一模型極限”的性能表現。

爭議旋渦:是真創新還是“偷家”?

這一成績在開發者社區引發了巨大的分歧。以工程師 Max Rumpf 爲代表的批評者認爲，Zoom 只是通過 API “套殼”了別人的成果，在對實際用戶意義有限的基準測試中刷分，這種“剽竊他人勞動果實”的行爲並無實質技術貢獻。

然而，另一派觀察家如開發者朱宏成則認爲，在 AI 評估中勝出必然需要“模型聯邦”。這好比數據競賽平臺 Kaggle 的獲勝者總是依賴模型集成，而非單打獨鬥。這種策略在商業上極其聰明:它避免了昂貴的算力投入，同時讓 Zoom 能在不同供應商之間靈活切換，徹底擺脫了供應商鎖定。

從排行榜到產品:AI Companion3.0的實戰考驗

黃學東將這一成就視爲對 Zoom 戰略的驗證。對於 Zoom 的3億用戶而言，更有意義的較量將在即將上線的 AI Companion3.0 中展開。雖然48.1% 在 HLE 這種涉及高等數學與哲學的考試中代表了機器智能的前沿，但用戶更在乎的是:當數億人開始使用它總結會議、提取行動項時，這套“聯邦大腦”能否真的比單一模型更省時、更準確。

視頻會議巨頭“跨界”登頂，Zoom 憑藉聯邦 AI 刷新全球最難 AI 考試紀錄

不練模型練“兵法”:聯邦式 AI 路徑

爭議旋渦:是真創新還是“偷家”?

從排行榜到產品:AI Companion3.0的實戰考驗

相關推薦

DeepSeek V4 正式版疑定檔 8 月 3 日：硅基流動漲價露馬腳，API 已能答對新題

我國人工智能迎來全產業鏈突破，將加快《人工智能法》立法

DeepSeek-V4-Flash API公測上線 Agent能力全面爆發

韓國最大 AI 模型問世：LG 發佈 7500 億參數 K-EXAONE 2.0，Apache 開源直面中國模型

DeepSeek-V4-Flash正式版上線，130億激活參數撬動Agent戰場