長期以來,大模型領域的華山論劍一直由谷歌、OpenAI 及 Anthropic 等實驗室把持。然而,上週視頻會議巨頭 Zoom 投下了一枚震撼彈:其人工智能系統在被譽爲“人類最後的考試”(Humanity's Last Exam, HLE)的頂級基準測試中,以 48.1% 的成績刷新了世界紀錄,超越了此前由谷歌 Gemini3Pro 保持的45.8%。

會議 開會


不練模型練“兵法”:聯邦式 AI 路徑

面對“一家非底層模型廠商如何反超模型巨頭”的質疑,Zoom 首席技術官、前微軟 AI 大將黃學東(Xuedong Huang)給出了截然不同的答案。Zoom 並非通過燒錢訓練自己的萬億參數大模型,而是開發了一套精密的“聯邦式人工智能方法”:

  • Z 評分器(Z-Scorer): 系統的核心大腦,負責實時評估來自 OpenAI、Google 和 Anthropic 等多個模型的響應,挑選出針對特定任務的最優解。

  • 探索-驗證-聯合策略: 這是一套智能體(Agent)工作流,通過讓多個人工智能系統進行“辯證協作”,互相挑戰並完善推理結果。

  • 流量控制器: 簡單來說,Zoom 構建了一個極其聰明的人工智能“調度中心”,通過集成而非自研,實現了“超越任何單一模型極限”的性能表現。

爭議旋渦:是真創新還是“偷家”?

這一成績在開發者社區引發了巨大的分歧。以工程師 Max Rumpf 爲代表的批評者認爲,Zoom 只是通過 API “套殼”了別人的成果,在對實際用戶意義有限的基準測試中刷分,這種“剽竊他人勞動果實”的行爲並無實質技術貢獻。

然而,另一派觀察家如開發者朱宏成則認爲,在 AI 評估中勝出必然需要“模型聯邦”。這好比數據競賽平臺 Kaggle 的獲勝者總是依賴模型集成,而非單打獨鬥。這種策略在商業上極其聰明:它避免了昂貴的算力投入,同時讓 Zoom 能在不同供應商之間靈活切換,徹底擺脫了供應商鎖定。

從排行榜到產品:AI Companion3.0的實戰考驗

黃學東將這一成就視爲對 Zoom 戰略的驗證。對於 Zoom 的3億用戶而言,更有意義的較量將在即將上線的 AI Companion3.0 中展開。雖然48.1% 在 HLE 這種涉及高等數學與哲學的考試中代表了機器智能的前沿,但用戶更在乎的是:當數億人開始使用它總結會議、提取行動項時,這套“聯邦大腦”能否真的比單一模型更省時、更準確。