在人工智能迅速發展的今天,金融行業對數據的準確性和安全性提出了更高的要求。騰訊最近宣佈開源了一款名爲 finLLM-Eval 的評測工具,專爲大模型在金融場景中的應用而設計。這一工具在行業內首次引入了無 GroundTruth 的金融數據準確性評測方法,填補了當前市場上對大模型金融領域評測的空白,旨在推動 AI 技術在高風險、高要求的金融領域的安全落地。
finLLM-Eval 的核心能力包括多個模塊,尤其突出的是邏輯一致性與事實準確性評測模塊。該模塊不僅提供完整的工程代碼和示例評測集,還支持用戶自定義評測集,能夠自動化輸出模型表現的詳細信息。用戶將獲得包括總分、錯誤點分佈、千字幻覺率等在內的完整評測報告,幫助他們深入瞭解模型的實際表現。
此外,finLLM-Eval 還具備端到端金融數據準確性對比模塊。這個技術方案的最大亮點在於,它能夠在無 GroundTruth 的情況下,基於真實用戶的問答自動提取金融事實的三要素 ——“標的 × 時間 × 指標”,並通過內部金融數據庫進行驗證,省去了人工標註的繁瑣。
更爲智能的是,finLLM-Eval 引入了 AgentAsJudger 的自動化評測機制。整個評測過程無需人工干預,AI Agent 能自動提取事實點與邏輯鏈,並與相關內容或金融數據庫進行比對,準確率高達 96% 以上。這一創新不僅提高了評測效率,也確保了評測結果的可靠性。
展望未來,項目團隊計劃不斷迭代 finLLM-Eval,未來將支持非金融指標的數據覈驗及結果歸因等能力,助力金融科技的不斷髮展與完善。
