设为首页
收藏本站
用户名
Email
自动登录
找回密码
密码
登录
立即注册
快捷导航
云科服社区
BBS
期刊发表辅导
中国专利
国际专利
硕博毕业论文辅导
期刊目录
云硕博
个人提升
手机版
SCI/SSCI/EI发表辅导
闭源SCI/SSCI发表辅导
知网普刊发表辅导
Scopus期刊发表辅导
CSCD期刊发表辅导
万方普刊发表辅导
维普普刊发表辅导
北核期刊发表辅导
南核期刊发表辅导
AMI期刊发表辅导
知网加急发表
中文普刊加急发表
万方期刊加急发表
发明专利
实用新型专利
软件著作权
外观设计专利
版权登记
香港专利
美国专利
日本专利
德国专利
尼日利亚专利
卢森堡专利
MBA/EMBA毕业论文辅导
MPA毕业论文辅导
数学专业毕业论文辅导
计算机专业毕业论文辅导
美术专业毕业论文辅导
人工智能方向毕业论文辅导
土木方向毕业论文辅导
医学方向毕业论文辅导
金融方向毕业论文辅导
教育方向毕业论文辅导
传播学方向毕业论文辅导
工业设计方向毕业论文辅导
北核期刊目录
科核期刊目录
SCI期刊目录
SCI/SSCI期刊检索
中文普刊目录
国际在职硕士
国际在职博士
国内申博论文发表
申博外语能力证明
MUET马来西亚留学
CISA国际信息系统审计师
PMP项目管理师
搜索
搜索
热搜:
SCI发表
论文辅导
1v1学术辅导
在职国际硕士
免考国际硕士
专利申请
尼日利亚专利
发明专利包过申请
发明专利预审
医学SCI发表
本版
帖子
云科服论坛
»
云科服社区
›
学术其他
›
学术工具
›
DeepSeek又拿第一!首创“因果流”视觉推理,超越Gemini ...
返回列表
发新帖
查看:
943
|
回复:
2
DeepSeek又拿第一!首创“因果流”视觉推理,超越Gemini ...
[复制链接]
集群智慧张老师
集群智慧张老师
当前离线
积分
12921
4077
主题
535
回帖
1万
积分
论坛元老
论坛元老, 积分 12921, 距离下一级还需 9987078 积分
论坛元老, 积分 12921, 距离下一级还需 9987078 积分
积分
12921
发消息
发表于 2026-2-15 22:36:29
|
显示全部楼层
|
阅读模式
6 V8 u' v G# i4 `: \* M
编辑:定慧 好困
8 \" j4 `! M7 Z, M8 |
【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。
6 A" a/ r2 T* J
DeepSeek又双叒叕更新了!
- q/ P* t5 K5 O8 F2 m& l
这次是DeepSeek-OCR模型的重磅升级:DeepSeek-OCR2。
5 E" T; A7 b2 ~5 }( r. m$ X
* l; D. b0 f9 o$ A7 N$ w- W
还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。
& Q8 q& ^4 _$ b" C
这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!
; r3 m2 R( M* k& H
U" D% b% }' U, l
DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。
) _' Y2 B! p2 b* O* ~5 x$ U
当然,按照DeepSeek的惯例,Paper、Code、Model全开源!
6 W! M/ r3 [8 i& G6 x1 g
: t" n1 u N8 y$ Y7 X
DeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。
& h+ K6 M l _& B
这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。
( U- k% u# r) u3 }
DeepSeek-OCR2
+ P9 F' P$ o) F
视觉因果流
# d* d8 z5 T/ g( w* \5 g
DeepSeek在
论文
中指出,传统的视觉语言模型(VLM)通常采用光栅扫描(Raster-Scan)顺序处理图像,即固定地从左到右、从上到下。
1 D4 I9 H+ n) e6 n$ Z3 A
这种方式强行将2D图像拍扁成1D序列,忽略了图像内部的语义结构。
- f! K4 W% A+ A; |' S
* t" P! @6 C) h& g, S
这显然与人类的视觉习惯背道而驰。
; X4 A. f) {: o: l9 M7 d0 H' o
人类在看图或阅读文档时,目光是随着逻辑流动的:先看标题,再看正文,遇到表格会按列或按行扫视,遇到分栏会自动跳跃。
- ?& B# i. H8 u; Y o5 g
为了解决这个问题,DeepSeek-OCR2引入了DeepEncoder V2。
$ `* `$ ~: E b! x: k* O" R
它最大的特点是用一个轻量级的大语言模型(Qwen2-0.5B)替换了原本的CLIP编码器,并设计了一种独特的「因果流查询」(Causal Flow Query)机制。
" H! T: {3 S+ L4 _
DeepEncoder V2架构详解
* o# x6 {+ X f9 \* n
DeepEncoder V2主要由两部分组成:
- b2 W" q$ e3 e& N
1. 视觉分词器(Vision Tokenizer)
: u; N- M7 c e! }
沿用了SAM-base(80M参数)加卷积层的设计,将图像转换为视觉Token。
& E/ o |3 ?' ~2 e
& G1 Q' ?& Y) i. U3 C1 Q9 \
2. 作为视觉编码器的LLM
, e! n5 n1 K' Y0 L# E$ s4 p5 ]
这里DeepSeek使用了一个Qwen2-0.5B模型。
3 M1 ~6 Z; s1 r2 b; J4 U1 ?# j
它不仅处理视觉Token,还引入了一组可学习的「查询Token」(Query Tokens)。
3 l3 Z! c" R( _, g" ~/ ~& l1 c8 x
/ x1 ~( \. [2 {. k; b/ n
关键的创新点在于注意力掩码(Attention Mask)的设计:
~% Z" Y i2 q; T% L
# m& G$ M# |0 T# y
视觉Token之间采用双向注意力(Bidirectional Attention),保持全局感知能力,类似于ViT。
# d$ T* D& R. [$ F
而查询Token则采用因果注意力(Causal Attention),每一个查询Token只能看到它之前的Token。
4 u% b3 V; M8 U$ R; f1 L
通过这种设计,DeepEncoder V2实现了两级级联的因果推理:
+ y) s4 N% I& d- U& [) g1 n
编码器通过可学习的查询对视觉Token进行语义重排,随后的LLM解码器则在这个有序序列上进行自回归推理。
7 z+ l% r$ m3 Q" c
这意味着,DeepSeek-OCR2在编码阶段就已经把图像里的信息「理顺」了,而不是一股脑地扔给解码器。
+ E4 e/ N# M" ^5 o9 [6 x
Token更少,精度更高
$ x) J9 l4 E9 a% }
实验数据显示,DeepSeek-OCR2在保持极高压缩率的同时,性能显著提升。
9 M$ x, c z0 h
在OmniDocBench v1.5基准测试中,DeepSeek-OCR2在使用最少视觉Token(仅256-1120个)的情况下,综合得分高达91.09%,相比前代提升了3.73%。
0 T5 M( n F% h
5 n2 K; e' v) A% }3 D
特别值得一提的是,在阅读顺序(R-order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR2从前代的0.085显著降低到了0.057。
4 T6 a* g ~( C/ ]7 D7 @1 C$ v
这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。
# N# h# [! X3 ^8 t t
在和Gemini-3 Pro等闭源强模型的对比中,DeepSeek-OCR2也丝毫不落下风。
+ S4 h* j7 u8 ~% a
在均使用约1120个视觉Token的情况下,DeepSeek-OCR2的文档解析编辑距离(0.100)优于Gemini-3 Pro(0.115)。
2 O: h$ Y: H1 _
2 ^! E. R" R: e" L+ c
, v9 |# k- }4 c3 d& J; x2 t
不仅是刷榜,DeepSeek-OCR2在实际生产环境中也非常能打。
- h. d& g2 q) _" ]- p
DeepSeek披露,在处理在线用户日志图像时,OCR结果的重复率从6.25%降到了4.17%;在PDF数据生产场景中,重复率从3.69%降到了2.88%。
: C6 b& ]* A9 S- f) ?
3 R2 L: X$ [, I4 P
这意味着模型生成的文本更加干净、准确,对于作为LLM训练数据的清洗流水线来说,价值巨大。
7 L9 h6 O2 D4 c$ ~4 Z0 f& O& Z
迈向真正的多模态统一
3 u5 K$ \ T& |4 A0 |3 T
DeepSeek在论文最后提到,DeepSeek-OCR2通过DeepEncoder V2验证了「LLM作为视觉编码器」的可行性。
1 Z8 x4 t, |; ~" T" g
这不仅是一个OCR模型的升级,更是迈向原生多模态(Native Multimodality)的重要一步。
0 p/ ]. o" L/ s/ s7 H
未来,同一个编码器只要配备不同的模态查询嵌入(Query Embeddings),就能处理文本、图片、音频等多种模态的数据,真正实现万物皆可Token,万物皆可因果推理。
; \3 s7 w5 V7 ?
DeepSeek表示,虽然目前光学文本识别(OCR)是LLM时代最实用的视觉任务之一,但这只是视觉理解宏大图景的一小部分。
P0 n# M& { H0 _5 E$ l
DeepSeek将继续探索,向着更通用的多模态智能进发。
回复
举报
3dmax001
3dmax001
当前离线
积分
1420
30
主题
440
回帖
1420
积分
等待验证会员
积分
1420
发消息
发表于 2026-2-15 23:06:34
|
显示全部楼层
DeepSeek总能不断给我们惊喜!
回复
举报
3dmax001
3dmax001
当前离线
积分
1420
30
主题
440
回帖
1420
积分
等待验证会员
积分
1420
发消息
发表于 2026-2-15 23:36:40
|
显示全部楼层
好样的,DeepSeek!
回复
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
就业工作
EI会议/知网会议
发明专利
硕博生活
导师招生
公司地址:大连市高新园区黄浦路科技创业大厦19层 运营中心:大连市沙河口区金盾路127号 研发中心:大连市西岗区大工西岗科创产业园10层 邮政编码:116029
全国客户服务热线:4006-054-001 微信咨询:543646 业务咨询、合作:159-9855-7370(同微信) / 173-0411-9111 电子邮件:Djy@Jiqunzhihui.com
集群智慧®为我公司注册商标,受法律保护,侵权必究。侵权删除:2544906@QQ.com
本企业已通过ISO9001国际质量管理体系认证、ISO45001职业健康安全管理体系认证、ISO14001环境管理体系认证、企业信用等级AAA级认证、科技型中小企业认证、高新技术企业认证。
本站部分服务由本平台认可的第三方服务机构提供,如服务的质量有任何问题,请第一时间向我平台反馈,我们将及时为您解决,平台保障用户的全部权益不受任何损害。
本站所涉及的期刊咨询、指导服务,服务包括选刊指导、投稿指导、学术指导、翻译润色等,均通过全流程的高标准服务对结果负责,坚决杜绝代写等学术不端行为。
请认准本站网址(www.jiqunzhihui.org.cn),推荐百度搜索“集群智慧云科服”直达本站。D-U-N-S邓白氏全球编码:620550735 增值电信业务经营许可ICP/EDI证:辽B2-20230179
版权所有:大连集群智慧科技服务有限公司 ICP备案:
辽ICP备2021010330号-3
公安备案号:辽公网安备21020302000612号
手机版
快速回复
返回顶部
返回列表