找回密码
 立即注册
查看: 355|回复: 5

谷歌北大联手学术版Banana爆火,论文图表100%精确生成

[复制链接]

4077

主题

535

回帖

1万

积分

论坛元老

积分
12921
发表于 2026-2-16 17:37:05 | 显示全部楼层 |阅读模式
效果好到刷屏的Nano Banana,学术特供版热乎出炉!8 N8 Y. ~$ A: v" s6 S+ F
名字就是如此直观——PaperBanana,给你每天都在头痛的Paper用上Banana。(试图押韵skr)+ z4 p1 ]2 T) d& a
而且这一次是由谷歌北大强强联手打造。
  w; n/ d1 s  d# @/ h& X$ N

: p' N9 `" J) g% x5 `知道你想马上看效果,别急,三个官方案例这就给大家搬上桌。' x# [$ m6 O- N; Y% i% c
在相同输入下,人类绘制、原版Nano Banana与PaperBanana生成的论文插图对比如下:2 h* _5 _' Y. p+ y5 }: z* K
综合评估显示,PaperBanana在美观性、简洁性与逻辑清晰度上均全面优于原版。
4 d, c9 a2 c0 Q, E9 x4 J

4 @; [4 ~+ E7 L而且它还能直接优化人工绘制的插图,瞅瞅右边,是不是高级感一下就上去了。- D  k: V) g1 F  D9 o
- S% F, M# d: [# B$ Y" r
此外,由于PaperBanana还提供代码出图功能 (即利用Gemini-3-Pro自动生成并执行Python可视化代码出图),所以它还能用来生成需要数值100%精准的各种图表。3 H( m6 w6 Y0 F+ v
, R! @  d1 {4 T) }7 K. d; i
好好好,既能拿捏高级感,又不忘精准度,应该没有学术人不爱吧~
2 d5 Y7 L# J' n

) H' O- ^) e) ~论文作者表示,PaperBanana为全自动生成可用于出版的插图铺平了道路。- M+ p5 ~- ?! L+ A  O' [' B& ^
我们希望这个框架能成为连接复杂科学概念与高效视觉叙事的桥梁,赋能每一位研究者,用专业级的视觉语言清晰呈现其发现。* \  J2 o- a* G& i) l1 P4 X( g
而在看到其效果之后,一众网友也纷纷感叹“学术插图”这个老大难总算是要被攻克了。9 w/ W) `( T7 H7 O
想想以前的日子,真真是要落泪了~9 r6 Z( r( E2 o; Y8 v1 z9 N
研究人员花费4个小时在Figma中绘制一张图,简直令人难以置信。$ P  G- W, p) _
  c% F; b: M2 {& ^
那么,学术版PaperBanana是如何炼造的呢?0 E! h7 S8 O: n9 o% P& s6 h( ]
一个不够,那就5个!& s0 ^1 n4 P' V: o5 G
; [+ k; h6 v5 O. N2 d# k( M
用一个模型生图怎么够,现在都是多智能体齐上阵了。1 T% l5 O0 k' ?  ~0 s
没错,PaperBanana背后就是5个分工明确的智能体在起作用。
* ?+ C/ O4 ?6 ?: Z

    8 K7 o( w& n% q. i% j
  • Retriever Agent(检索智能体):从顶会论文库中,找到与你要画的图领域、结构最相似的参考案例。( R9 o& O* [1 N8 J
  • Planner Agent(规划智能体):把论文文字描述,转化为包含所有模块、逻辑的详细绘图说明书。
    ' i' W! S, {6 S% P
  • Stylist Agent(风格智能体):总结学术审美规范,给说明书加上配色、排版等“美颜”标准。+ |. b( p/ _# f) t! e; I; W5 }7 C0 k
  • Visualizer Agent(可视化智能体):根据说明书,直接画图或写代码出图,产出初稿。: h5 O% t' z4 Z
  • Critic Agent(批判智能体):检查图的对错与美观度,提出修改意见,循环迭代3轮优化。  b1 E# D* u, x+ |0 ~3 L! W1 F% O; f
下面这张图清晰展示了它们的工作流程:
4 W" K; `& x4 L+ }, _' K. ]划重点,连这张图也是PaperBanana自己生成的。
! @, y4 F/ R/ v8 e

$ M& _' Z" [6 t论文作者表示,这一过程参考了人类制作论文插图的流程。
' C+ x9 F' n6 h1 a' [( j8 r以制作一个模型架构图为例,通常研究人员会先去看看顶会里类似工作的图是怎么画的,找找灵感和规范。
% ^: U) g. ^6 j, l0 r8 e这一步就对应了检索智能体的工作。
1 U- |* {) n- U# q然后就需要根据参考来规划自己的图该怎么画,“我的方法有几个关键模块?”、“数据流和逻辑顺序是怎样的?”,在想清所有关键问题后,脑子里大概就有一幅架构蓝图了。9 {3 C" f. B* m) ~
而到这一步还不是真正动笔的时候,因为还需要结合自己的图以及之前看过的“顶会审美”标准,来给蓝图加点设计感。& D9 e0 L- X+ C, n7 O0 D
有了这两样东西(蓝图+审美),现在就可以真正出图了。5 W5 W8 ^8 j$ B& e) T9 v2 Y
并且出完之后,研究人员往往还需要检查一番,以确保出图正确无误。( S  Z* W5 ~2 Z) N' ^: t3 q! o4 E
% D1 u' D0 S; b5 W# c( _
怎么样?是不是一环扣一环、且全都一一对应上了。
# ~: h; _) }7 K0 C而在了解完PaperBanana的工作方式后,接下来的问题在于:
% [( o( u8 x3 O. M, Z6 Y% X) c! |怎么评估PaperBanana的生图效果?5 ~& U: R( x) A% u
实验方法及结果( I7 i# }% O, [

+ D: _& R/ |/ F. N/ }对此,团队还专门构建了一个PaperBananaBench。该基准内容源自NeurIPS 2025——
6 a3 N& V) ^7 w他们从5275篇论文中随机采样2000篇,经过滤、人工校验后,得到584个有效样本,然后将其均分为292个测试样本和292个参考样本。: J1 n# s0 e# y. Q+ _2 s) w+ n5 q
这292个参考样本,每一个都提取了完整的(S, C, I)三元组:8 w1 q  u0 H$ S. D: b  Y. e0 E  B

    " N2 Y& s9 T! U4 {7 j" R! _6 ~2 t& u% R
  • S(源上下文):描述方法的文本,如论文方法论章节;( k- U; _, `# `1 k- c* `
  • C(传达意图):图的标题/说明,如“我们的框架概述”;
    - N1 `* k3 M+ a) ^) K
  • I(参考图像):论文中实际使用的、高质量的对应图表。. {6 ]( J5 U4 h, e# z$ `2 Z
参考样本集构成了一个高质量的“学术插图数据库”,主要供检索智能体进行查询和匹配。
) N  |$ t+ O. T1 y3 Y而与之对应的292个测试样本,在评估时则仅提供S、C作为输入。其对应的I作为隐藏的标准答案,不参与生成过程,仅用于最终的质量比对与评分。
0 I5 i1 G3 |* D* ]# B* y- Q准备到这里,接下来就是具体生成和评估了。" u! ]3 N+ U& `# A
裁判方面,他们采用了“VLM-as-a-Judge”(大模型当裁判)的评估范式——# G0 `! K1 C1 S8 [$ W, T! m
让强大的视觉语言模型(如Gemini-3-Pro)作为评委,将PaperBanana生成的图与测试集中隐藏的标准答案I进行逐项对比。+ C  s8 V) d! ?
对比的维度主要有四个:忠实性、简洁性、可读性、美观性8 L6 B5 v4 m  v) S, D8 E! J- y
若PaperBanana表现优于标准图得100分,劣于得0分,持平得50分,最终计算总分。: p; ^, P' R% W) c; l- C% G
而实验结果表明,PaperBanana在所有维度上全面超越了传统的单模型直接生成(Vanilla)等基线方法。5 C# A7 A: c  J

) J$ t4 q" S# g4 [6 {/ ~
    ! ^( U3 l' B- Y# M) O4 i
  • 整体性能碾压:总分相对基线提升了17.0%。其中,简洁性提升最为显著,高达37.2%,说明它生成的图逻辑更干净、重点更突出;可读性(+12.9%)和美观性(+6.6%)也有大幅领先。4 k$ k8 E* l, `, T5 l+ |* C: L5 Y1 r& u
  • 获得人类盲测认可:在匿名的人类盲测中,研究员有72.7%的情况认为PaperBanana生成的图比基线模型更好。) A, v" ~/ E. N0 U: H
  • 统计图表表现优异:在需要高精度的统计图表任务中,PaperBanana的“代码生成模式”在数值忠实性上与人类水平相当,而简洁性和美观性甚至略胜一筹。
    / ~" }4 y, g2 ?! V( Z/ L5 Y- m
& j) A# r1 b& V
这里需要说明,在生成图表方面,PaperBanana有两种模式:
2 \0 K0 J8 U/ R0 c' K0 k8 U一种是代码生成模式(默认)。让Gemini-3-Pro这类模型自动写Python可视化代码(如Matplotlib),再运行代码出图。优点是可以保证数值绝对准确,适合需要严格精度的场景。
) G3 ^+ _3 K2 }# S) ]另一种是直接生图模式(可选方式)。跳过代码,让图像生成模型直接根据文本描述生成图表。优点是视觉效果更顶,但数值容易出现幻觉问题。
. @. o* g! A  [9 A左图直接生图模式下,红框圈选出来的就是一些错误问题,而右侧的代码生图模式明显无误,但美观度略逊。
7 _  ^+ r( Y" ]/ n0 u8 Q8 ^& b
6 P  J6 d/ b; d, B7 d
最后的消融实验证明,检索参考、风格优化、批判迭代这三个环节缺一不可,它们共同保证了最终图像的“准确”与“好看”。! N# J% k! w* j6 N& F& C3 ^
不过也需要提醒,PaperBanana目前仍有一些局限性,比如它作为生图还无法编辑,同时在很多细节忠实度方面仍比不上人类手工作业。" J( d( C- {8 u7 N0 K1 g
所以,更保险的做法或许是,让它帮你优化以前绘制过的图。
( n& w# i4 h0 V& F在下面这套“手图蜕变”流程下,很多图都能变得更美观、更高级……当然也更容易入顶会的眼(doge)。
8 T0 s) w, {; O! a/ G1 {3 x/ Y  L
# j$ {' i5 |2 V
谷歌x北大联手打造
$ t. h) Y0 M! w" [: v8 Z0 J* b5 L. P
最后介绍下PaperBanana背后的团队。
, X5 V8 p  H- L一共7人,可以清晰分成两拨——
6 S0 }* S) ]/ |' u一拨来自北大,主要提供NLP与多模态理解的学术根基;另一拨来自Google Cloud AI Research,负责多模态系统与工业化视角。4 J6 e' r. T/ {
3 g. `* b0 q- C. a
署名第一的DawEI Zhu(兼通讯作者),本硕博均就读于北大,现为北大四年级博士生。  d( e' |) s- ?# \6 I3 B
他重点研究长上下文建模和多模态数据,之前在微软亚洲研究院实习过,目前是Google Cloud AI Research学生研究员,PaperBanana也是他在谷歌期间参与的项目。: S. l9 S$ _7 F' c+ ?
) m2 h1 V5 ~: c8 t( P% Z% c
借着北大这条线,另外两位来自北大的分别是Xiyu Wei和Sujian Li(兼通讯作者)。
! a6 G8 ?0 l( }! ySujian Li目前是北大计算机学院长聘副教授,也是Dawei Zhu的博导,主要研究自然语言处理、信息抽取等。0 n3 v* E; D3 q5 U4 c2 ]+ D  y
而Xiyu Wei可能还是学生,目前只能看到TA和Dawei Zhu合作过一篇关于拓展上下文的论文。( j+ I2 k* _! c
5 U+ R2 p9 t, b6 b3 ^7 d
而其他几位来自Google Cloud AI Research的分别是:
# Z7 x0 x! [5 i" W: a负责人Tomas Pfister、高级研究科学家Yale Song、研究科学家Rui Meng和Jinsung Yoon(兼通讯作者)。
8 I/ L7 t$ L6 w# }  H, d截至目前,PaperBanana已在开源社区GitHub揽获上千star,感兴趣可以继续关注。: e  }' V9 O( s1 T. @! @
+ K+ H; B; d! |+ T0 m- }6 l' b& d
项目主页:- L2 ]1 \* S. e# z
https://dwzhu-pku.github.io/PaperBanana/
" q9 P! s4 K  b( @( h论文:
5 Z9 C2 B2 {/ D) T- Nhttps://arxiv.org/abs/2601.23265& |- T( l$ I  H- W0 u3 J1 u
GitHub地址:
5 Y9 m' g' [0 b/ ?! o  Y. [. hhttps://github.com/dwzhu-pku/PaperBanana
集群智慧云科服专利申请服务

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-16 17:49:26 | 显示全部楼层
不支持后期编辑是唯一的短板,如果后续可以像 Figma 那样接入手动修改,就几乎完美
集群智慧云科服SCI/SSCI/EI期刊发表服务

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-16 18:00:47 | 显示全部楼层
说好的100%精准呢,我瞅着那代码生图模式的美观度还是差了点,就像打印店赶工出来的图,细节处总差点意思

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-16 18:13:21 | 显示全部楼层
学术插图神器来了,AI解放科研狗不是梦!

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-16 18:25:03 | 显示全部楼层
不支持后期编辑是唯一的短板,如果后续可以像 Figma 那样接入手动修改,就几乎完美

74

主题

2196

回帖

6841

积分

论坛元老

积分
6841
发表于 2026-2-16 18:37:20 | 显示全部楼层
说好的100%精准呢,我瞅着那代码生图模式的美观度还是差了点,就像打印店赶工出来的图,细节处总差点意思
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表