找回密码
 立即注册
查看: 354|回复: 5

谷歌北大联手学术版Banana爆火,论文图表100%精确生成

[复制链接]

4077

主题

535

回帖

1万

积分

论坛元老

积分
12921
发表于 2026-2-16 17:37:05 | 显示全部楼层 |阅读模式
效果好到刷屏的Nano Banana,学术特供版热乎出炉!
+ `' _2 d0 P+ p7 @名字就是如此直观——PaperBanana,给你每天都在头痛的Paper用上Banana。(试图押韵skr)
* Z, \- X' L* ?* ]6 B$ a而且这一次是由谷歌北大强强联手打造。
# I+ B. K7 Y+ k$ C

. ^- b- B: |; D5 k8 A7 v知道你想马上看效果,别急,三个官方案例这就给大家搬上桌。
( Q# j/ D' O+ k在相同输入下,人类绘制、原版Nano Banana与PaperBanana生成的论文插图对比如下:
& c. u" Y* q2 ]5 d- q- F  b综合评估显示,PaperBanana在美观性、简洁性与逻辑清晰度上均全面优于原版。3 ^/ W) Z: f* Z/ {2 k4 R

( u* Q" q" a4 ^/ D) ]& e8 y& p而且它还能直接优化人工绘制的插图,瞅瞅右边,是不是高级感一下就上去了。
9 \8 g! M: n# p* [
3 K! p' e! ^5 ?
此外,由于PaperBanana还提供代码出图功能 (即利用Gemini-3-Pro自动生成并执行Python可视化代码出图),所以它还能用来生成需要数值100%精准的各种图表。+ W' j5 U/ t8 S2 {) r1 I
9 w( N: K5 E* h5 Y4 r" h5 Y! u
好好好,既能拿捏高级感,又不忘精准度,应该没有学术人不爱吧~# H2 w, v+ @/ d6 ?$ U  V

' ?4 E: s/ G5 K/ `! M5 e$ O+ ~( h论文作者表示,PaperBanana为全自动生成可用于出版的插图铺平了道路。
6 x% r- J% I: @/ ?. h
我们希望这个框架能成为连接复杂科学概念与高效视觉叙事的桥梁,赋能每一位研究者,用专业级的视觉语言清晰呈现其发现。
) V* |' h& C* N: r! i( v) h  U
而在看到其效果之后,一众网友也纷纷感叹“学术插图”这个老大难总算是要被攻克了。
1 y5 y# B- ^/ D0 x) H想想以前的日子,真真是要落泪了~
3 n4 y5 n9 V. G& |% m7 I/ V- }
研究人员花费4个小时在Figma中绘制一张图,简直令人难以置信。
2 |% J7 K( X9 R

/ W' Q7 q$ t& d$ j5 d' |那么,学术版PaperBanana是如何炼造的呢?
) T0 O* L/ y3 @一个不够,那就5个!
/ ~8 @: ~2 R4 |! ]$ D
! _: t% i5 \3 Y) x用一个模型生图怎么够,现在都是多智能体齐上阵了。; @2 H$ P- @; l
没错,PaperBanana背后就是5个分工明确的智能体在起作用。
: }3 ^# e% H: d, |+ |& k+ `$ B) ?

    ! S" U9 u; {5 M
  • Retriever Agent(检索智能体):从顶会论文库中,找到与你要画的图领域、结构最相似的参考案例。2 h9 P+ {2 f9 S4 t" R" U  E7 T: [
  • Planner Agent(规划智能体):把论文文字描述,转化为包含所有模块、逻辑的详细绘图说明书。
    % Q& @+ l/ K+ e1 w$ ]
  • Stylist Agent(风格智能体):总结学术审美规范,给说明书加上配色、排版等“美颜”标准。
    + ^: {. Y% U$ O, u) d6 G! P1 N
  • Visualizer Agent(可视化智能体):根据说明书,直接画图或写代码出图,产出初稿。
    - Y0 [5 s7 F1 q% w: k  @8 b
  • Critic Agent(批判智能体):检查图的对错与美观度,提出修改意见,循环迭代3轮优化。5 Q) U6 E" k/ x
下面这张图清晰展示了它们的工作流程:  x# j7 F8 v, |; t6 x
划重点,连这张图也是PaperBanana自己生成的。( A% G7 ]/ r1 u( x3 t  _
7 s. z$ o4 ~6 k& T
论文作者表示,这一过程参考了人类制作论文插图的流程。: j+ n8 P, s9 _
以制作一个模型架构图为例,通常研究人员会先去看看顶会里类似工作的图是怎么画的,找找灵感和规范。
5 I( J/ P* s' P+ ?1 B0 s# t- O这一步就对应了检索智能体的工作。
9 e& P1 t+ B: b然后就需要根据参考来规划自己的图该怎么画,“我的方法有几个关键模块?”、“数据流和逻辑顺序是怎样的?”,在想清所有关键问题后,脑子里大概就有一幅架构蓝图了。
, ~8 A2 B9 m/ p; ?而到这一步还不是真正动笔的时候,因为还需要结合自己的图以及之前看过的“顶会审美”标准,来给蓝图加点设计感。& @$ q! o5 u" B2 |7 |( }0 V
有了这两样东西(蓝图+审美),现在就可以真正出图了。
0 G1 D! _2 W) R+ x并且出完之后,研究人员往往还需要检查一番,以确保出图正确无误。& c$ w* }! d3 S5 ]2 a5 m0 }) y" |
" d1 ^7 d6 h2 ^4 C" X
怎么样?是不是一环扣一环、且全都一一对应上了。
" |4 x" ^8 n6 M; }& x8 h' k& v而在了解完PaperBanana的工作方式后,接下来的问题在于:
& B2 L; w/ b/ p1 U1 N6 ^1 ^2 Q" b怎么评估PaperBanana的生图效果?
5 D4 Q+ g. X3 w) y: g实验方法及结果
. S2 ~$ {7 s. u- a8 L
5 S1 x* I2 x: b# G, a. l* w) F对此,团队还专门构建了一个PaperBananaBench。该基准内容源自NeurIPS 2025——
! b4 D0 G; _) m( L) n* u* K他们从5275篇论文中随机采样2000篇,经过滤、人工校验后,得到584个有效样本,然后将其均分为292个测试样本和292个参考样本。. f4 j' f! B( Y% R; M/ j) [0 c
这292个参考样本,每一个都提取了完整的(S, C, I)三元组:
( t% M8 j) V+ V
    1 |- r5 l6 L' d  N0 \( i
  • S(源上下文):描述方法的文本,如论文方法论章节;
    ; J2 G* l/ [+ L
  • C(传达意图):图的标题/说明,如“我们的框架概述”;) E# y1 ^: Y( d# [# W# p
  • I(参考图像):论文中实际使用的、高质量的对应图表。
    * W& X2 d* N4 |8 s, A
参考样本集构成了一个高质量的“学术插图数据库”,主要供检索智能体进行查询和匹配。9 ~" W- T* n+ e: X3 O# Y8 g
而与之对应的292个测试样本,在评估时则仅提供S、C作为输入。其对应的I作为隐藏的标准答案,不参与生成过程,仅用于最终的质量比对与评分。
, K& x! F( ~2 P$ U4 ?& A  ]6 B6 C& `) |# D准备到这里,接下来就是具体生成和评估了。
( N$ P+ C2 `! |裁判方面,他们采用了“VLM-as-a-Judge”(大模型当裁判)的评估范式——
" G4 }% r( g4 {. A1 X; x让强大的视觉语言模型(如Gemini-3-Pro)作为评委,将PaperBanana生成的图与测试集中隐藏的标准答案I进行逐项对比。
5 }- P7 e# y8 ]0 R# u对比的维度主要有四个:忠实性、简洁性、可读性、美观性$ p8 w- K& f7 X0 i8 g5 }% F' V
若PaperBanana表现优于标准图得100分,劣于得0分,持平得50分,最终计算总分。  E1 m# m9 g3 ~9 W0 j
而实验结果表明,PaperBanana在所有维度上全面超越了传统的单模型直接生成(Vanilla)等基线方法。
8 z7 e! U3 e$ C

3 J, d, H: J4 Z3 ^) s# l
    9 K* E! S' P( ~# `) r: z
  • 整体性能碾压:总分相对基线提升了17.0%。其中,简洁性提升最为显著,高达37.2%,说明它生成的图逻辑更干净、重点更突出;可读性(+12.9%)和美观性(+6.6%)也有大幅领先。7 g9 F' K  K) Q! _4 h* \( ]
  • 获得人类盲测认可:在匿名的人类盲测中,研究员有72.7%的情况认为PaperBanana生成的图比基线模型更好。: F; V+ S6 L2 w6 r! y7 I
  • 统计图表表现优异:在需要高精度的统计图表任务中,PaperBanana的“代码生成模式”在数值忠实性上与人类水平相当,而简洁性和美观性甚至略胜一筹。
    & N& V2 t; Z& z; m% u5 _
/ r' C& H2 Z5 N1 @, K9 s* P9 p
这里需要说明,在生成图表方面,PaperBanana有两种模式:
" M) z: b1 f0 N, L( b一种是代码生成模式(默认)。让Gemini-3-Pro这类模型自动写Python可视化代码(如Matplotlib),再运行代码出图。优点是可以保证数值绝对准确,适合需要严格精度的场景。5 a8 c  [9 Z5 Z
另一种是直接生图模式(可选方式)。跳过代码,让图像生成模型直接根据文本描述生成图表。优点是视觉效果更顶,但数值容易出现幻觉问题。% |( J2 ]' X" C" i& H8 p5 u8 K: ~' M
左图直接生图模式下,红框圈选出来的就是一些错误问题,而右侧的代码生图模式明显无误,但美观度略逊。
6 q9 C* R6 K& d" s1 @
+ z: |$ k' r; Z3 y3 E& Z
最后的消融实验证明,检索参考、风格优化、批判迭代这三个环节缺一不可,它们共同保证了最终图像的“准确”与“好看”。/ ?0 M- D, J, Q
不过也需要提醒,PaperBanana目前仍有一些局限性,比如它作为生图还无法编辑,同时在很多细节忠实度方面仍比不上人类手工作业。
" g9 e3 O+ D2 h所以,更保险的做法或许是,让它帮你优化以前绘制过的图。& H+ Y3 {0 Y- _- b) q$ w4 b
在下面这套“手图蜕变”流程下,很多图都能变得更美观、更高级……当然也更容易入顶会的眼(doge)。
7 M4 b4 K, @' J

4 ^/ p2 }, x7 `2 |; K7 X谷歌x北大联手打造9 @7 A  A. _2 E5 ?

5 x+ U, S4 B- B3 L  G, P- S最后介绍下PaperBanana背后的团队。- P( v0 T  Q" v9 q1 I  j/ \
一共7人,可以清晰分成两拨——$ V+ x$ v: R3 x; T  |; J
一拨来自北大,主要提供NLP与多模态理解的学术根基;另一拨来自Google Cloud AI Research,负责多模态系统与工业化视角。
6 i/ C  n+ J: y
4 _: T" w7 E: [2 c
署名第一的DawEI Zhu(兼通讯作者),本硕博均就读于北大,现为北大四年级博士生。% }7 r& j$ N) \* J% a3 w! z) t' v
他重点研究长上下文建模和多模态数据,之前在微软亚洲研究院实习过,目前是Google Cloud AI Research学生研究员,PaperBanana也是他在谷歌期间参与的项目。
( d- C/ W4 r! }. T. [4 f

2 B$ t) `+ I; _9 X借着北大这条线,另外两位来自北大的分别是Xiyu Wei和Sujian Li(兼通讯作者)。
! l" r4 n4 N) b' Z5 D$ x+ qSujian Li目前是北大计算机学院长聘副教授,也是Dawei Zhu的博导,主要研究自然语言处理、信息抽取等。
- ~* u' J; n% S6 g, t/ r1 j( Z' w而Xiyu Wei可能还是学生,目前只能看到TA和Dawei Zhu合作过一篇关于拓展上下文的论文。
# Y6 S# v. M# ]. i
/ q/ N* m2 w7 q
而其他几位来自Google Cloud AI Research的分别是:
2 @! ^' u0 H3 o  R4 |" A, s) _8 c负责人Tomas Pfister、高级研究科学家Yale Song、研究科学家Rui Meng和Jinsung Yoon(兼通讯作者)。
% G9 A# q- V0 W截至目前,PaperBanana已在开源社区GitHub揽获上千star,感兴趣可以继续关注。& u8 C$ P2 y/ _! m

4 I9 N$ W8 M  p- k项目主页:
' Q5 O+ [$ Z; Y0 X8 thttps://dwzhu-pku.github.io/PaperBanana/
1 b* p9 }# g' g; I论文:
" ~" w& h& a0 P& x3 T1 c- ~+ Chttps://arxiv.org/abs/2601.23265
7 A3 O6 e/ Q+ O( J5 w  l/ G; J6 E- rGitHub地址:
% l- H! ?; Y1 V. J6 A  \0 Thttps://github.com/dwzhu-pku/PaperBanana
集群智慧云科服专利申请服务

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-16 17:49:26 | 显示全部楼层
不支持后期编辑是唯一的短板,如果后续可以像 Figma 那样接入手动修改,就几乎完美
集群智慧云科服SCI/SSCI/EI期刊发表服务

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-16 18:00:47 | 显示全部楼层
说好的100%精准呢,我瞅着那代码生图模式的美观度还是差了点,就像打印店赶工出来的图,细节处总差点意思

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-16 18:13:21 | 显示全部楼层
学术插图神器来了,AI解放科研狗不是梦!

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-16 18:25:03 | 显示全部楼层
不支持后期编辑是唯一的短板,如果后续可以像 Figma 那样接入手动修改,就几乎完美

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-16 18:37:20 | 显示全部楼层
说好的100%精准呢,我瞅着那代码生图模式的美观度还是差了点,就像打印店赶工出来的图,细节处总差点意思
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表