xAI發佈Grok4.20:推理性能提升顯著，不幻覺率78%創行業紀錄

2026年3月12日，xAI正式發佈新一代大語言模型Grok4.20Beta，該模型在保持價格競爭力的同時，憑藉極高的事實可靠性刷新了行業紀錄。

根據Artificial Analysis的最新評估，Grok4.20在啓用推理功能的智能指數（Intelligence Index）中獲得48分，較前代版本提升6分。儘管在綜合基準測試中仍與Gemini3.1Pro Preview和GPT-5.4（均爲57分）存在差距，但其在AA全知測試中的表現極爲出色，非幻覺率高達78%，有效解決了AI模型普遍存在的虛假信息編造問題。

在產品矩陣與工程參數方面，xAI同步推出了帶推理功能、不帶推理功能以及多智能體模式的三種API版本。該模型支持高達200萬個令牌的上下文窗口，其定價策略極具市場滲透力，每百萬令牌成本僅爲2美元至6美元，較Grok4顯著降低。技術層面，Grok4.20在面對未知領域時表現出極強的剋制力，承認“不知道”的頻率大幅提升，錯誤率僅約爲五分之一。

Grok、馬斯克、xAI

當前全球大模型競爭已從單純的參數規模轉向推理深度與事實準確性的雙重博弈。Grok4.20的推出，標誌着xAI在追求通用人工智能（AGI）的過程中，正試圖通過強化“誠實性”與“低幻覺率”來構建差異化優勢。這種對事實可靠性的極致追求，不僅提升了AI在嚴謹行業應用中的落地潛力，也爲未來多智能體協同協作提供了更爲穩固的信息信任基礎。

騰訊混元"合二爲一"：多模態與大語言模型部門合併，姚順雨統管衝全模態上限

據7月24日報道，騰訊於7月23日宣佈將混元多模態模型部門與大語言模型部門合併，組建基礎模型部，由首席AI科學家姚順雨統率。此舉旨在提升研發與協同效率，全力衝刺全模態模型的智能上限。整合早有伏筆，去年12月姚順雨已接管大語言模型團隊，如今雙邊歸一，意味着騰訊集中資源推動多模態與語言深度融合，加速構建新一代統一基礎模型，向全模態智能更高峯邁進。

馬斯克把Grok塞進Excel：選中一片數據就能問漲跌原因，圖表直接插進表格

馬斯克旗下xAI於7月21日推出免費插件Grok For Excel，已登陸微軟應用商店，兼容Word與PowerPoint。該插件將Grok大模型深度嵌入Office，用戶只需在Excel中框選數據區域，即可直接調用Grok進行分析，如同內置的數據分析員，貼近真實辦公場景。

Epoch AI測試三大AI文本檢測器:模仿人類文風后最高近三成內容漏檢

Epoch AI研究顯示，主流AI文本檢測器能近乎完美識別普通AI生成內容，但當大語言模型刻意模仿特定作者寫作風格時，準確率明顯下降，科學寫作最難辨別。實驗測試了Pangram、GPTZero和Originality.ai三款工具，採用495篇涵蓋博客、小說、科學的人類原創文本（均創作於ChatGPT問世前），發現風格模仿可有效逃逸檢測。

xAI發佈Grok4.20:推理性能提升顯著，不幻覺率78%創行業紀錄

相關推薦

騰訊混元"合二爲一"：多模態與大語言模型部門合併，姚順雨統管衝全模態上限

馬斯克把Grok塞進Excel：選中一片數據就能問漲跌原因，圖表直接插進表格

Epoch AI測試三大AI文本檢測器:模仿人類文風后最高近三成內容漏檢

xAI罕見起訴Grok用戶：指控其濫用AI生成兒童性虐待圖片視頻，已封停超 5 萬個違規賬戶

xAI罕見揮拳：起訴濫用Grok造不雅圖的用戶，今年已封禁 52222 個賬號