在日前發佈的中文精確指令遵循測評基準(SuperCLUE-CPIF)中,百度的文心 X1.1以75.51分的優異成績,成爲國產大模型中的佼佼者,獲得了國內第一的位置。這項評測包括了多達10個國內外知名模型,如 GPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning、Gemini-2.5-Pro 等,側重於評估大型語言模型(LLM)在中文環境中執行復雜指令的能力。

SuperCLUE-CPIF 測評不僅關注模型的任務類型和指令數量,還特別強調模型將自然語言指令轉化爲符合要求的具體輸出的能力。在這次測評中,文心 X1.1在實際生產環境中的表現尤爲突出,顯示出其在複雜寫作任務和多元化場景下的強大優勢。

image.png

文心 X1.1是基於文心大模型4.5進行訓練的深度思考模型,其在升級過程中採用了迭代式混合強化學習訓練框架。這意味着,它不僅可以提升通用任務和智能體任務的效果,還能夠通過自蒸餾數據的迭代訓練,不斷提高整體性能。

在實際應用中,文心 X1.1能夠靈活運用內置知識和聯網搜索工具,精準捕捉用戶所需的信息,同時深入理解用戶的創意寫作需求,最終輸出內容結構合理、邏輯清晰且文辭優美。例如,在處理共享單車平臺的客戶服務時,文心 X1.1能夠綜合考慮用戶的情感狀態和問題類型,從而高效地解決問題,展現出完整而主動的服務過程。

作爲國內最早投入大模型研發的企業,百度藉助其 “芯片 - 框架 - 模型 - 應用” 的全棧自研體系,持續推動文心大模型的能力進化。數據顯示,文心 X1.1在事實性和指令遵循能力上較其前身文心 X1分別提升了34.8% 和12.5%,智能體表現提升了9.6%。這一成果無疑爲國產大模型的發展樹立了新的標杆。