正文

騰訊重磅出擊！finLLM-Eval 助力金融大模型精準評測，告別數據幻覺！

發布於AI新閒資訊

時間 :Jan 20, 2026

閱讀 :1分鐘

在人工智能迅速發展的今天，金融行業對數據的準確性和安全性提出了更高的要求。騰訊最近宣佈開源了一款名爲 finLLM-Eval 的評測工具，專爲大模型在金融場景中的應用而設計。這一工具在行業內首次引入了無 GroundTruth 的金融數據準確性評測方法，填補了當前市場上對大模型金融領域評測的空白，旨在推動 AI 技術在高風險、高要求的金融領域的安全落地。

finLLM-Eval 的核心能力包括多個模塊，尤其突出的是邏輯一致性與事實準確性評測模塊。該模塊不僅提供完整的工程代碼和示例評測集，還支持用戶自定義評測集，能夠自動化輸出模型表現的詳細信息。用戶將獲得包括總分、錯誤點分佈、千字幻覺率等在內的完整評測報告，幫助他們深入瞭解模型的實際表現。

此外，finLLM-Eval 還具備端到端金融數據準確性對比模塊。這個技術方案的最大亮點在於，它能夠在無 GroundTruth 的情況下，基於真實用戶的問答自動提取金融事實的三要素 ——“標的 × 時間 × 指標”，並通過內部金融數據庫進行驗證，省去了人工標註的繁瑣。

更爲智能的是，finLLM-Eval 引入了 AgentAsJudger 的自動化評測機制。整個評測過程無需人工干預，AI Agent 能自動提取事實點與邏輯鏈，並與相關內容或金融數據庫進行比對，準確率高達 96% 以上。這一創新不僅提高了評測效率，也確保了評測結果的可靠性。

展望未來，項目團隊計劃不斷迭代 finLLM-Eval，未來將支持非金融指標的數據覈驗及結果歸因等能力，助力金融科技的不斷髮展與完善。

小微企業深陷 AI 詐騙泥潭：2025 年近半數攻擊由人工智能驅動

ITRC調查顯示，2025年高達80%的小微企業遭遇網絡詐騙或數據泄露，其中41%的攻擊由AI驅動。相比2024年，AI已成爲主要攻擊手段。黑客利用生成式AI進行社會工程學攻擊，模擬內部溝通，極具欺騙性。

Jan 20, 2026

69.2k

亞馬遜新 AI 購物助手上線，讓你的購物更智能

亞馬遜推出AI購物助手“幫我決定”，通過分析用戶歷史與偏好提供個性化推薦，覆蓋安卓、iOS及手機瀏覽器用戶，提升數字化購物體驗。

Jan 20, 2026

115.2k

阿里、螞蟻聯手注資3000萬美元，AI 陪伴領域新星 “自然選擇” 嶄露頭角！

AI陪伴公司“自然選擇”獲超3000萬美元融資，阿里巴巴和螞蟻集團等參投。公司致力於將AI融入日常生活，其產品《EVE》通過高情商、高智商交互提供沉浸式陪伴體驗。

Jan 20, 2026

107.6k

谷歌 Gemini 新功能上線！讓你快速獲取答案，告別漫長思考

谷歌在Gemini應用中新增“立即回答”功能，旨在減少用戶等待焦慮。用戶可一鍵跳過深度思考環節，快速獲取答案。該功能適用於Pro版和思考版模型，按鈕旁會顯示加載狀態。

Jan 20, 2026

135.8k

億元戰略注資!中國儒意聯手愛詩科技，開啓 AI 實時交互影像新時代

AI視頻企業愛詩科技與港股上市公司中國儒意達成深度戰略合作，獲1420萬美元戰略投資。雙方將在影視視覺設計、視效製作、智能生成宣傳素材及流媒體資產優化等領域合作，中國儒意還將開放版權資源，助力愛詩科技釋放IP創作潛力。

Jan 20, 2026

105.7k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

騰訊重磅出擊！finLLM-Eval 助力金融大模型精準評測，告別數據幻覺！

相關推薦

​小微企業深陷 AI 詐騙泥潭：2025 年近半數攻擊由人工智能驅動

亞馬遜新 AI 購物助手上線，讓你的購物更智能

阿里、螞蟻聯手注資3000萬美元，AI 陪伴領域新星 “自然選擇” 嶄露頭角！

谷歌 Gemini 新功能上線！讓你快速獲取答案，告別漫長思考

億元戰略注資!中國儒意聯手愛詩科技，開啓 AI 實時交互影像新時代

小微企業深陷 AI 詐騙泥潭：2025 年近半數攻擊由人工智能驅動