找回密码
 立即注册
查看: 944|回复: 2

DeepSeek又拿第一!首创“因果流”视觉推理,超越Gemini ...

[复制链接]

4077

主题

535

回帖

1万

积分

论坛元老

积分
12921
发表于 2026-2-15 22:36:29 | 显示全部楼层 |阅读模式
pTu3q38MncMnVIXM.jpg
8 z- [- [. T+ [7 B编辑:定慧 好困8 T8 M) ]% c' ]- S" K
【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。
4 z* g3 \* h7 q4 S  `DeepSeek又双叒叕更新了!
9 a/ \' F* \1 a0 o& d7 z- T这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2。; Z- ?. B% r6 l
lBk6gIFs7RsgrY1b.jpg
! T+ y# t6 i$ q还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。
+ U9 P  h& }5 d7 |  H这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!
$ u6 y& f2 r2 q8 A  P# k v70qZD1igDIdciso.jpg 3 H8 U6 w; f! g0 R5 X( c. J
DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。, l' r& _: Z4 _9 B
当然,按照DeepSeek的惯例,Paper、Code、Model全开源!/ O  D6 h* |% t% u3 k. i6 |- q
zNW7921h1xV1QXq9.jpg
0 H% r( k, O3 P, r3 ^0 VDeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。; i2 _& Y9 b2 U1 C4 J1 D6 P
这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。
$ `2 B! _/ c$ D" w6 p3 p) TDeepSeek-OCR23 f7 S! t4 j$ m9 X" j1 G" w- ?* U
视觉因果流0 |7 c) T: S# E/ |- n: ?
DeepSeek在论文中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。
, a" g9 _$ M) C4 t9 [6 m( F, H这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。
- D* l8 L5 Q5 \2 ^: ^2 j3 z fa88RVr9fv8P9eRs.jpg . A+ Y/ r7 n3 ?6 B& c/ O* N
这显然与人类的视觉习惯背道而驰。
# M2 Q$ s# ]4 c3 b$ T" v, U人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。
- Y7 s7 C7 a2 Q- f为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。7 Q- t# z8 |) R4 i1 p/ ^3 c4 ?
它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。
% ]- B8 q: W$ m# p8 y; S. tDeepEncoder V2架构详解# G' i! `: B2 T: B4 H
DeepEncoder V2主要由两部分组成:# F6 O9 F3 k  L! e5 [8 y# D
1. 视觉分词器(Vision Tokenizer)5 [- q! N8 t* D; I
沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。! U0 N, j" i0 w5 h( Z- ]
Y55Bb2fgzgFG0f11.jpg
; ~& ?, F5 z7 w" T2. 作为视觉编码器的LLM
" j/ ~$ u' E5 o$ \7 f9 j8 N这里DeepSeek使用了一个Qwen2-0.5B模型。* j7 x: z% I% e/ M7 j. L0 {
它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。. v# s. W0 i6 r
LbGsl23S6dlMVn63.jpg
4 O5 Z1 t/ |' L$ V2 ^9 I' S1 |1 z$ C% @3 A关键的创新点在于注意力掩码(Attention Mask)的设计:
% S/ Y. R5 I# B JRajWCZ6k3KcbDko.jpg
( t$ V. l( f8 O2 m  ~( b0 k) ?) [视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。9 @* {- C# a7 O) ^6 n
而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。
4 g7 |# X* B3 W& w. w7 R通过这种设计,DeepEncoder V2实现了两级级联的因果推理:/ m1 \6 h; O0 q  v" f, \3 I' u! [
编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。
' d& \' K/ u) u9 O* h  r- c这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。
/ z. {8 ^: L! ~  QToken更少,精度更高& y* c. p8 F  p9 y
实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。3 l, d) q; {( O4 b3 S
在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。
3 Z: F& s7 V0 P R7t89H111s1x2gSx.jpg
, }4 c) j" F; C/ Y1 I2 K8 ^特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。2 J2 G% T" a2 t2 V& x: T6 ?; c) S- G
这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。' t9 Y( C& @, c
在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。4 |8 ^5 s% h* D4 z& B2 m5 O
在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。
0 q& ^# G1 |1 q  a XJzoAIj7QsAOW07h.jpg & h5 @2 E" ], @- j' j
gm916YMt2699x19y.jpg
" y5 H& b+ ]1 V9 [不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。6 H' q, f  J( Q7 X( G$ W& D8 a& k
DeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。! S6 s6 S5 }8 e+ c8 z
ieZy45N94MyMInie.jpg , ^* W3 Q. r* ], G" ?
这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。
" \9 V# U3 J3 j. d3 Q迈向真正的多模态统一
3 {, e" N# d' ~, vDeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。# Y( i$ E! g$ S8 V
这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。: o& r) B8 {: Z: ~7 v
未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。
7 q* H% h& }( V# f$ jDeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。$ f1 }# i1 Y* H/ [1 A% K5 N
DeepSeek将继续探索,向着更通用的多模态智能进发。
集群智慧云科服专利申请服务

30

主题

440

回帖

1420

积分

等待验证会员

积分
1420
发表于 2026-2-15 23:06:34 | 显示全部楼层
DeepSeek总能不断给我们惊喜!
集群智慧云科服SCI/SSCI/EI期刊发表服务

30

主题

440

回帖

1420

积分

等待验证会员

积分
1420
发表于 2026-2-15 23:36:40 | 显示全部楼层
好样的,DeepSeek!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表