Deepseek OCR 2 提升文件解析能力 效能超越 Gemini 3 Pro 並減少 80% Token 使用量
2026 年,Deepseek 推出全新視覺編碼器 Deepseek OCR 2,徹底改變了傳統視覺語言模型由左至右、由上而下的處理模式。這項技術模仿人類觀察事物的靈活模式,根據內容含義重新排列影像資訊,大幅優化了文件解析的精準度與效率。透過更具彈性的處理方式,Deepseek 成功克服了舊有模型在處理複雜佈局影像時的侷限性。
DeepEncoder V2 模仿人類視覺邏輯提升理解力
Deepseek OCR 2 的技術核心在於 DeepEncoder V2,該架構將傳統的 CLIP 組件替換為基於 Qwen2 0.5B 的小型語言模型。研究團隊引入了「因果流 Token」,這些可學習的查詢 Token 能夠在語言模型進行解讀之前,先根據上下文重新組織視覺資訊。這種兩階段的處理流程讓系統能真正理解二維影像內容,而非僅僅是機械式的像素掃描,顯著提升了對複雜文件的認知能力。
Token 使用量驟降 80% 且解析效能超越 Gemini 3 Pro
在效能表現方面,Deepseek OCR 2 展示了驚人的運算效率。相比同類模型動輒需要 6,000 個以上的 Token,該模型僅需 256 至 1,120 個視覺 Token 即可完成處理,大幅降低了計算負擔。根據 OmniDocBench v1.5 測試,該模型整體得分達 91.09%,在文件解析任務中的表現甚至超越了擁有相似 Token 預算的 Gemini 3 Pro,並有效減少了文字重複生成的錯誤率。
開源架構推動統一多模態處理技術發展
儘管在處理高密度文字的報紙頁面時仍有提升空間,但研究團隊認為 DeepEncoder V2 是邁向標準化多模態處理的重要進展。未來此架構有望統一處理文字、語音與影像,實現真正的多維度內容理解。目前 Deepseek OCR 2 的代碼與模型權重已於 GitHub 與 Hugging Face 全面發佈,為產業提供了更具效率的 AI 工具,協助大規模生成高品質的訓練數據集。
NewMobileLife 網站:https://www.newmobilelife.com