中國 AI 領軍企業 DeepSeek 近日發佈了全新的視覺編碼器 DeepSeek OCR2,在文檔處理和圖像識別領域實現重大突破。該模型通過模擬人類視覺的靈活掃描模式,徹底顛覆了傳統視覺模型平鋪直敘的處理邏輯。

image.png

DeepSeek 研究人員指出,人類眼睛在觀察物體時會根據內容進行靈活聚焦。爲了實現這一特性,DeepSeek OCR2引入了全新的架構,棄用了傳統的 CLIP 組件,轉而採用輕量級語言模型架構。該架構利用“因果流 Token”對視覺信息進行重新排列和上下文整合,使 AI 能夠像人類一樣,根據內容的意義而非固定的網格順序來“觀察”世界。

這種創新的處理方式不僅提升了理解力,更極大地優化了效率。在相同的圖像處理任務中,DeepSeek OCR2僅需256到1,120個 Token,相比同類系統通常消耗的6,000個以上 Token,其視覺 Token 消耗量銳減了80% 以上。這種極高的壓縮率使得模型在處理長文檔時具有巨大的成本和速度優勢。

image.png

權威的 OmniDocBench 基準測試中,該模型以91.09% 的高分刷新紀錄,在文檔解析性能上全面超越了 Gemini3Pro。目前,DeepSeek 已將該模型的代碼和權重向公衆開放。研究團隊認爲,這種架構是邁向統一多模態處理的重要一步,未來有望在同一框架下實現文本、語音和圖像的深度融合理解。

劃重點:

  • 🚀 能效巔峯:DeepSeek OCR2將單張圖像的視覺 Token 需求大幅降低,相比同類系統減少了約80% 的資源消耗。

  • 📑 性能超越:在 OmniDocBench 測試中,該模型在文檔解析和識別閱讀順序方面表現卓越,準確率超越了 Gemini3Pro。

  • 🧠 架構創新:通過引入“因果流 Token”重組視覺信息,模型實現了從機械掃描到理解內容邏輯的跨越。