バイドゥが文心を発表し、PaddleOCR-VL-1.6：正確率96.33％を突破し、ドキュメント解析のSOTAを更新

百度は、文心大モデルの派生モデルであるPaddleOCR-VL-1.6を正式に発表しました。OmniDocBench v1.6の権威ある評価において、96.33％の正確率でGemini-3-Pro、GPT-5.2、GLM-OCRなどの国内外の主要な大規模モデルを上回り、業界のSOTAを更新し、総合的な性能で世界第1位を獲得しました。このリリースは、マルチモーダル大規模モデルが複雑なドキュメント理解と現実的なシナリオ解析能力において重要な突破を遂げたことを示しています。

文心大モデルのマルチモーダル機能のコア部分として、PaddleOCRは文心大モデルに基づいてトレーニングされており、現在では100種類以上の言語認識をサポートしており、ユーザーは世界中の170か国以上に及んでいます。今回のアップグレードされたPaddleOCR-VL-1.6は、0.9Bの軽量なアーキテクチャを維持しつつ、モデル駆動型のデータ構築メカニズムと段階的なトレーニング最適化により、テーブル、古文書、生僻字（めいじ）、インク印、図表認識などの複雑なシナリオにおける核心的な認識能力を大幅に向上させました。

現実的な複雑なシナリオ向けのReal5-OmniDocBenchの評価において、このモデルは93.19％の総合指標を達成し、依然としてリードを維持し、スキャンされた資料、曲がった紙、画面写真、照度変化、傾いたドキュメントなどの業界的に認知されている解析の難題を克服しました。

百度がモデル委員会を設立し、大規模なモデル全体を統括。若手の研究者による指揮のもと、技術と応用の一体化を推進

百度は大規模言語モデル戦略の最高意思決定・調整機関として「百度模型委員会（BMC）」を設立。若手研究者で構成され、基礎モデル研究開発部と応用モデル研究開発部が直接報告し、技術開発から製品化までの一貫管理を実現。大規模モデル競争が体系的な体制に移行したことを示す。....

NVIDIAがマルチモーダルなパーソナルモデルを発表、推論効率は競合の9倍

NVIDIAがオープンなマルチモーダル大規模モデル「Nemotron3Nano Omni」を発表。ビデオ、オーディオ、画像、テキストの深い推論を統合し、30B-A3B混合エキスパートアーキテクチャを採用。視覚・音声エンコーダーを内蔵し、開発者向けに高速でスマートな対話応答を実現する。....

偶然なのか予演なのか？アップルの国行版AIが凌晨に一時的に動作した。内蔵されているのはバイドゥのワンジン大モデルであると明らかに

中国版iPhoneのAI機能が誤って公開され、すぐに削除され話題に。ユーザーが「Apple 智能与 Siri」オプションを発見したが、一時的な利用後に公式に撤回された。一部ユーザーがテスト中、新しいSiriが「我是文心」と自称し、百度の文心大モデルを基にしている可能性を示唆。....

百度文心 ERNIE-5.0-0110 の正式リリース数学の能力は世界第2位

百度が新世代の文心大モデル ERNIE-5.0-0110 を発表しました。LMArenaグローバルテキストランキングで1460点を獲得し、8位にランクインしました。これは中国国内で開発されたモデルとして初めてトップ10に入ったものです。特に数学処理能力が際立っており、世界第2位を記録しており、これはGPT-5.2-Highに次ぐものです。

中国製の大規模モデルが世界トップ10に参入！文心ERNIE 5.0がLMArenaランキングをトップに、数学能力はGPTに迫る

百度が文心大モデルERNIE-5.0-0110を発表し、LMArenaの世界テキスト能力ランクで第8位にランクインし、トップ10に入る唯一の中国製モデルとなった。特に数学推論分野での成績が突出しており、世界第2位を記録し、非公開のGPT-5.2-Highに次いでいることがわかった。これは中国製の大規模モデルが専門分野において突破を遂げていることを示している。