7月7日、百度AIチームはPaddleOCR3.1バージョンが正式リリースされ、多言語認識、複雑なドキュメント翻訳および大規模モデルとの連携機能において3つのアップグレードを実現しました。新バージョンでは37の言語のテキスト認識をサポートし、平均精度が30%以上向上し、ドキュメント翻訳プロセスとMCPサーバー機能を新たに導入し、開発者が効率的にAIアプリケーションを構築するのを支援します。

グローバルなシナリオにおける多言語ニーズに対応するため、PaddleOCR3.1はPP-OCRv5多言語モデルを追加し、フランス語、スペイン語、ロシア語など37の言語をカバーしています。文心4.5マルチモーダル大規模モデルの視覚的およびテキスト理解能力を統合することで、モデルは高信頼度のテキスト検出とデータラベリングを自動的に行い、多言語データの不足という課題を解決します。実際のテスト結果によると、新しいモデルはラテン語系や東スラブ語の環境での識別精度が30%以上向上しており、例えば韓国語の識別誤り率は8.7%から2.1%に低下し、ロシア語の複雑なレイアウトのドキュメントの解析速度は2倍に向上しています。

微信截图_20250708091203.png

PP-StructureV3ドキュメント解析エンジンと文心の大規模モデルを組み合わせ、PaddleOCR3.1はPP-DocTranslation翻訳プロセスをリリースしました。このツールはPDFや画像内の表、式、手書き文字などの複雑な要素をスマートに認識し、Markdown形式に変換して多言語翻訳を行います。法律や医療などの専門分野向けには、ユーザーが用語対照表をアップロードできるようにし、「キーワード」の詳細な翻訳が可能です。例えば、ある国際的な製薬企業がこの機能を使用した後、医薬品説明書の翻訳効率が40%向上し、専門用語の一貫性は99.2%に達しました。

AIアプリケーション開発のハードルを下げるために、PaddleOCR3.1はMCP(Model Context Protocol)サーバー機能を導入し、標準化されたプロトコルを通じてOCR機能を下流アプリケーションにスムーズに接続できるようにします。開発者は数ステップでMCPサービスを構築でき、ローカルPythonライブラリ、飛 paddle星河コミュニティまたは自前ホスティングサービスを通じて、画像文字認識やドキュメントページ面分析などのコア機能を呼び出すことができます。

オープンソースの場所:https://github.com/PaddlePaddle/PaddleOCR