在 AI 巨頭們瘋狂堆料、追逐跑分巔峯的當下,馬斯克旗下的 xAI 卻另闢蹊徑,試圖解決 AI 領域最令人頭疼的“一本正經胡說八道”問題。今日,xAI 正式發佈了 Grok4.20Beta。儘管在絕對智力跑分上它仍與頂級梯隊保持距離,但在“誠實度”這一關鍵指標上,它卻刷新了行業紀錄。

image.png

根據 Artificial Analysis最新評測,Grok4.20在推理模式下的智力指數分數爲48,雖然落後於(兩者均爲57),但其在事實可靠性上的表現極其驚人:

  • 最低幻覺率:在 AA Omniscience 測試中,Grok4.20達到了 78% 的“非幻覺率”,創下歷史新高。

  • 知之爲知之:該模型在面對無法回答的問題時,不再傾向於編造虛假事實,而是能更準確地承認“我不知道”。這種“誠實”對於嚴謹的辦公和研究場景至關重要。

技術架構:三位一體的 API 矩陣

爲了滿足不同層級的需求,xAI 此次推出了三種 API 變體:

推理模式(Reasoning):犧牲速度換取深度邏輯思考,是此次打破幻覺記錄的核心。

標準模式(Non-reasoning):側重於快速響應與常規交互。

多智能體模式(Multi-agent):支持多個 AI 實例協同處理複雜任務。

市場策略:加量不加價

除了性能上的獨特性,Grok4.20在商業邏輯上也極具攻擊性:

  • 海量上下文:支持高達 200萬 token 的上下文窗口,能夠一次性吞下整本書或海量代碼庫。

  • 價格優勢:其定價定在每百萬 token2至6美元之間,不僅比前代 Grok4更便宜,在目前的西方主流模型中也極具競爭力。

Grok4.20的發佈反映出 xAI 戰略的轉變——不再執着於在通往 AGI 的總分跑道上死磕,而是精準切入“企業級可靠性”這一痛點。正如測評機構所言,如果說其他模型是在努力成爲“全知全能的先知”,那麼 Grok4.20則在努力成爲一個“絕不撒謊的助手”。

對於那些對數據準確性有極高要求的用戶來說,Grok4.20或將成爲除 OpenAI 和谷歌之外的第三個重量級選項。