DeepSeek 發佈 OCR 2：視覺 Token 消耗銳減 80%，文檔解析力超越 Gemini 3 Pro

中國 AI 領軍企業 DeepSeek 近日發佈了全新的視覺編碼器 DeepSeek OCR2，在文檔處理和圖像識別領域實現重大突破。該模型通過模擬人類視覺的靈活掃描模式，徹底顛覆了傳統視覺模型平鋪直敘的處理邏輯。

DeepSeek 研究人員指出，人類眼睛在觀察物體時會根據內容進行靈活聚焦。爲了實現這一特性，DeepSeek OCR2引入了全新的架構，棄用了傳統的 CLIP 組件，轉而採用輕量級語言模型架構。該架構利用“因果流 Token”對視覺信息進行重新排列和上下文整合，使 AI 能夠像人類一樣，根據內容的意義而非固定的網格順序來“觀察”世界。

這種創新的處理方式不僅提升了理解力，更極大地優化了效率。在相同的圖像處理任務中，DeepSeek OCR2僅需256到1，120個 Token，相比同類系統通常消耗的6，000個以上 Token，其視覺 Token 消耗量銳減了80% 以上。這種極高的壓縮率使得模型在處理長文檔時具有巨大的成本和速度優勢。

在權威的 OmniDocBench 基準測試中，該模型以91.09% 的高分刷新紀錄，在文檔解析性能上全面超越了 Gemini3Pro。目前，DeepSeek 已將該模型的代碼和權重向公衆開放。研究團隊認爲，這種架構是邁向統一多模態處理的重要一步，未來有望在同一框架下實現文本、語音和圖像的深度融合理解。

劃重點:

🚀 能效巔峯:DeepSeek OCR2將單張圖像的視覺 Token 需求大幅降低，相比同類系統減少了約80% 的資源消耗。
📑 性能超越:在 OmniDocBench 測試中，該模型在文檔解析和識別閱讀順序方面表現卓越，準確率超越了 Gemini3Pro。
🧠 架構創新:通過引入“因果流 Token”重組視覺信息，模型實現了從機械掃描到理解內容邏輯的跨越。

DeepSeek 發佈 OCR 2：視覺 Token 消耗銳減 80%，文檔解析力超越 Gemini 3 Pro

相關推薦

Adobe Firefly 宣佈爲訂閱用戶提供無限量 AI 視頻與圖像生成

谷歌發佈 Conductor：由上下文驅動的 Gemini CLI 擴展，讓 AI 編程告別“閱後即焚”

農業 AI 的“GPT 時刻”:Carbon Robotics 發佈大型植物模型 LPM

OpenAI 新推出 Codex macOS 應用，挑戰編程效率新高峯！

算力市場起波瀾：OpenAI 擬引入第三方推理芯片，英偉達主導地位受挑戰

​DeepSeek 發佈 OCR 2：視覺 Token 消耗銳減 80%，文檔解析力超越 Gemini 3 Pro

相關推薦

Adobe Firefly 宣佈爲訂閱用戶提供無限量 AI 視頻與圖像生成

​谷歌發佈 Conductor：由上下文驅動的 Gemini CLI 擴展，讓 AI 編程告別“閱後即焚”

農業 AI 的“GPT 時刻”:Carbon Robotics 發佈大型植物模型 LPM

OpenAI 新推出 Codex macOS 應用，挑戰編程效率新高峯！

算力市場起波瀾：OpenAI 擬引入第三方推理芯片，英偉達主導地位受挑戰

DeepSeek 發佈 OCR 2：視覺 Token 消耗銳減 80%，文檔解析力超越 Gemini 3 Pro

谷歌發佈 Conductor：由上下文驅動的 Gemini CLI 擴展，讓 AI 編程告別“閱後即焚”