百度文心發佈PaddleOCR-VL-1.6:準確率破96.33%刷新文檔解析SOTA

百度正式發佈文心大模型衍生模型PaddleOCR-VL-1.6，在OmniDocBench v1.6權威評測中以96.33%的準確率超越Gemini-3-Pro、GPT-5.2及GLM-OCR等國內外主流大模型，刷新業界SOTA，綜合性能榮登全球第一。這一發布標誌着多模態大模型在複雜文檔理解與真實場景解析能力上取得了重要突破。

作爲文心大模型多模態能力的核心組成部分，PaddleOCR基於文心大模型訓練，目前支持超100種語言識別，用戶覆蓋全球170多個國家和地區。本次升級的PaddleOCR-VL-1.6在保持0.9B輕量化架構的前提下，通過模型驅動的數據構建機制與漸進式訓練優化，顯著提升了在表格、古籍、生僻字、印章及圖表識別等複雜場景下的核心識別能力。

在面向真實複雜場景的Real5-OmniDocBench評測中，該模型憑藉93.19%的總指標同樣保持領先，攻克了掃描件、彎折、屏幕拍照、光照變化及傾斜文檔等業界公認的解析痛點。

由於延續了前代架構，企業和開發者可實現無需額外適配的平滑遷移。目前，PaddleOCR在GitHub上的Star數已突破79.2K，超越谷歌Tesseract OCR，成爲全球最受迎的開源OCR項目。新模型現已上線官網並開源代碼與權重。在當前大模型向多模態深度演進的趨勢下，PaddleOCR-VL-1.6不僅爲文檔數字化提供了更高效的產業級解決方案，也將進一步加速AI在複雜多模態場景下的落地進程。

文心一言服務全面升級：數據遷移即將開啓，百度文心迎來新面貌

6月25日，百度文心一言發佈升級公告，宣佈平臺架構與服務入口深度整合。自2026年6月25日零時起，官網提問入口升級，用戶此後使用智能對話、創意寫作、辦公輔助、信息查詢等AI功能，並體驗最新文心大模型，需統一通過新入口。

重磅開源！原生多模態 LongCat-Next 發佈，讓視覺和語音成爲 AI 的“母語”

全球AI領域正經歷“AI母語”技術變革。針對當前大模型“語言中心、外掛視覺或語音”的拼湊架構，團隊發佈並開源了原生多模態大模型LongCat-Next及離散分詞器，旨在打破模態壁壘，讓AI像處理文字一樣理解物理世界。核心是通過重構底層架構實現突破。

百度文心發佈PaddleOCR-VL-1.6:準確率破96.33%刷新文檔解析SOTA

相關推薦

英偉達推出統一音頻智能模型 Nemotron-Labs-Audex-30B-A3B

AI 視頻賽道格局重塑：谷歌 Gemini Omni Flash 登頂盲測榜首

商湯科技祕密研發多模態模型“U1Pro”:由林達華牽頭，預計7月啓動內測對標OpenAI

文心一言服務全面升級：數據遷移即將開啓，百度文心迎來新面貌

重磅開源！原生多模態 LongCat-Next 發佈，讓視覺和語音成爲 AI 的“母語”