中国のAIリーディング企業であるDeepSeekは、近日、新しいビジュアルエンコーダー「DeepSeek OCR2」を発表しました。このモデルは文書処理および画像認識分野で重要な進歩を遂げました。従来のビジュアルモデルの平坦な処理ロジックとは異なり、このモデルは人間の視覚の柔軟なスキャンパターンを模倣することで、完全に新たな処理論理を打ち出しました。

DeepSeekの研究者は、人間の目が物体を観察する際に内容に応じて柔軟に焦点を合わせると指摘しています。この特性を実現するために、DeepSeek OCR2は従来のCLIPコンポーネントを廃止し、軽量な言語モデルアーキテクチャを採用しました。このアーキテクチャは、「因果的なストリームトークン」を利用して視覚情報の再構成と文脈統合を行います。これにより、AIは固定されたグリッド順序ではなく、内容の意味に基づいて「世界を見る」ことが可能になります。
この革新的な処理方法は理解力の向上だけでなく、効率の大幅な最適化ももたらしました。同じ画像処理タスクにおいて、DeepSeek OCR2は256から1,120のトークンで処理でき、類似システムが通常6,000以上のトークンを消費するのに対し、視覚トークンの消費量は80%以上減少しました。このような高い圧縮率により、モデルは長文書の処理においてコストと速度の大きな優位性を持っています。

権威あるOmniDocBenchベンチマークテストでは、このモデルは91.09%という高いスコアを記録し、記録を更新しました。文書解析性能において、Gemini3Proを全面的に上回りました。現在、DeepSeekはこのモデルのコードと重みを一般公開しています。研究チームは、このアーキテクチャが統合的なマルチモーダル処理への重要な一歩であり、今後は一つのフレームワーク内でテキスト、音声、画像の深い統合的理解が可能になると考えています。
ポイント:
🚀 エネルギー効率の頂点: DeepSeek OCR2は、単一の画像における視覚トークンの必要量を大幅に削減し、同種のシステムに比べて約80%のリソース消費を削減しました。
📑 パフォーマンスの優越: OmniDocBenchテストでは、このモデルは文書解析および読解順序の識別において卓越した性能を発揮し、精度がGemini3Proを上回りました。
🧠 アーキテクチャのイノベーション: 「因果的なストリームトークン」を導入して視覚情報を再構成することで、モデルは機械的なスキャンからコンテンツの論理的理解への飛躍を果たしました。
