百度正式發佈文心大模型衍生模型PaddleOCR-VL-1.6,在OmniDocBench v1.6權威評測中以96.33%的準確率超越Gemini-3-Pro、GPT-5.2及GLM-OCR等國內外主流大模型,刷新業界SOTA,綜合性能榮登全球第一。這一發布標誌着多模態大模型在複雜文檔理解與真實場景解析能力上取得了重要突破。
作爲文心大模型多模態能力的核心組成部分,PaddleOCR基於文心大模型訓練,目前支持超100種語言識別,用戶覆蓋全球170多個國家和地區。本次升級的PaddleOCR-VL-1.6在保持0.9B輕量化架構的前提下,通過模型驅動的數據構建機制與漸進式訓練優化,顯著提升了在表格、古籍、生僻字、印章及圖表識別等複雜場景下的核心識別能力。
在面向真實複雜場景的Real5-OmniDocBench評測中,該模型憑藉93.19%的總指標同樣保持領先,攻克了掃描件、彎折、屏幕拍照、光照變化及傾斜文檔等業界公認的解析痛點。
由於延續了前代架構,企業和開發者可實現無需額外適配的平滑遷移。目前,PaddleOCR在GitHub上的Star數已突破79.2K,超越谷歌Tesseract OCR,成爲全球最受迎的開源OCR項目。新模型現已上線官網並開源代碼與權重。在當前大模型向多模態深度演進的趨勢下,PaddleOCR-VL-1.6不僅爲文檔數字化提供了更高效的產業級解決方案,也將進一步加速AI在複雜多模態場景下的落地進程。
