百度智能雲千帆團隊正式發佈了全新視覺理解模型 ——Qianfan-VL,並且全面開源!這一系列模型包括3B、8B 和70B 三種不同尺寸,旨在滿足企業級多模態應用的需求,經過深度優化,展現出超強的視覺理解能力。

Qianfan-VL 模型不僅具備優秀的基礎能力,還針對行業的高頻需求進行了專項提升,比如光學字符識別(OCR)和教育場景的應用,使得其在實際使用中表現更加出色。該模型是基於開源模型進行開發,並在百度自研的崑崙芯 P800上完成了全流程計算,強大的算力支持確保了模型能夠高效處理複雜的數據和算法。

這款新模型有三大顯著特點。首先,多尺寸選擇讓不同規模的企業和開發者都能找到合適的解決方案,3B、8B 和70B 三種規格可滿足各種應用需求。其次,8B 和70B 模型具備思考推理能力,通過特殊 token 激活,能夠處理複雜圖表理解、視覺推理和數學解題等多種任務。最後,在 OCR 和文檔理解方面表現優異,不僅可以精準識別手寫體和複雜版面,還能進行信息的結構化提取。

在基準測試中,Qianfan-VL 系列模型展現了出色的通用能力和特定任務的優秀表現。無論是視覺理解,還是專業領域的問答,這款模型在各項測試中都顯示出了令人印象深刻的精確度和表現。尤其是在 OCR 與文檔理解領域,其全場景識別能力和複雜文檔分析能力,爲企業級應用提供了高精度的解決方案。

此外,Qianfan-VL 的數學解題能力也值得一提,8B 和70B 模型在處理複雜的推理任務時,結合視覺信息與外部知識展現出優越的性能。在實際應用場景中,它能夠提取關鍵信息並進行數據分析,助力企業進行智能決策。

Qianfan-VL 的推出標誌着百度在視覺理解領域的一次重大突破,期待其在各行業的落地應用將引發新的浪潮。
官方介紹:https://baidubce.github.io/Qianfan-VL/
項目地址:https://github.com/baidubce/Qianfan-VL
