百度は、文心大モデルの派生モデルであるPaddleOCR-VL-1.6を正式に発表しました。OmniDocBench v1.6の権威ある評価において、96.33%の正確率でGemini-3-Pro、GPT-5.2、GLM-OCRなどの国内外の主要な大規模モデルを上回り、業界のSOTAを更新し、総合的な性能で世界第1位を獲得しました。このリリースは、マルチモーダル大規模モデルが複雑なドキュメント理解と現実的なシナリオ解析能力において重要な突破を遂げたことを示しています。

文心大モデルのマルチモーダル機能のコア部分として、PaddleOCRは文心大モデルに基づいてトレーニングされており、現在では100種類以上の言語認識をサポートしており、ユーザーは世界中の170か国以上に及んでいます。今回のアップグレードされたPaddleOCR-VL-1.6は、0.9Bの軽量なアーキテクチャを維持しつつ、モデル駆動型のデータ構築メカニズムと段階的なトレーニング最適化により、テーブル、古文書、生僻字(めいじ)、インク印、図表認識などの複雑なシナリオにおける核心的な認識能力を大幅に向上させました。

現実的な複雑なシナリオ向けのReal5-OmniDocBenchの評価において、このモデルは93.19%の総合指標を達成し、依然としてリードを維持し、スキャンされた資料、曲がった紙、画面写真、照度変化、傾いたドキュメントなどの業界的に認知されている解析の難題を克服しました。