找回密码
 立即注册
查看: 445|回复: 0

大事不好!机器人学会预测未来了

[复制链接]

4077

主题

535

回帖

1万

积分

论坛元老

积分
12921
发表于 2026-2-15 21:00:37 | 显示全部楼层 |阅读模式
金磊 发自 凹非寺
: d8 i5 p5 b' n量子位 | 公众号 QbitAI& U6 U+ ~$ ]0 ~* B/ D

7 F( p$ Q5 A- V0 \8 l" d/ `# D4 E* S不得了,机器人现在开始学会脑补未来了。8 s9 w& }9 @6 v2 r* ~
这就是蚂蚁灵波又又又又(连续第4天)开源的狠活儿——
; s4 p0 s! ~6 ]全球首个用于通用机器人控制的因果视频-动作世界模型,LingBot-VA! ^( D4 b& P) ^0 M9 h
lIiZiXBTgq8ZMik3.jpg / `  B+ U* `& q

+ C; b: U! u9 O( `/ V; a; H1 D( v2 b' o- c# u
怎么个脑补法?
, O% \: g6 r) J简单来说啊,以前的机器人(尤其是基于VLA的)干活儿,主打一个条件反射:眼睛看到什么,手立刻就动一下。
+ }- C2 J5 S; q5 ^* W* y这叫“观察-反应”模式。
2 C0 A% {2 G8 T5 o0 b( y! M" A但LingBot-VA就不一样了,它通过自回归视频预测打破了这种思考方式,在动手之前,脑子里先把未来几秒的画面推演出来。2 z0 o) p1 {/ ?! Y$ e# m* {
说实话,用想象力做决策,在机器人控制这块还是相当新鲜的。  N6 [1 p  n, ~  _9 J" y
但这不是LingBot-VA唯一的亮点,还包括:
$ G2 X/ h  |/ j- n% U+ H1 _
8 m' r- \5 h1 s: P* j1 l* _! `/ m

    & r$ U" z0 I' Y& _+ k$ c
  • 记忆不丢失:做长序列任务(比如做早餐)时,它会记得自己刚才干了什么,状态感知极强。  E$ Z5 f( u- T/ T) u/ m
  • 高效泛化:只要给几十个演示样本,它就能适应新任务;换个机器人本体,也能hold住。5 [; E* f( C' t4 p

# m/ ^4 Z4 S' u4 M/ `/ s* Y1 P; M O8G7Z3Y88Ym0AgAY.jpg
9 P1 D1 `3 F) ^4 ~- s( V7 O* ]
0 I) L* y8 v; b3 ]# p% x* `/ I% x/ F
因此在LingBot-VA的加持下,像清洗细小的透明试管这种高精度任务,机器人已经是可以轻松拿捏:0 M2 F: s% Q* b0 F" b1 w, \
M5m7T5505W3cg4Wc.jpg ' p' S7 q& c$ M2 b3 p1 `

  c7 {3 ^8 Z5 l$ `, j+ N4 _+ j5 Q; o, W, V# F
视频地址:https://mp.wEIxin.qq.com/s/xqE6C72usddKMc4EH89myA
& ~; y4 R; m: Z& A" ~; I正如我们刚才提到的,今天是蚂蚁灵波连续第四天开源。
7 S$ b2 ]  I! r) K2 P& H如果说前几天的开源是给机器人加强了眼睛(LingBot-Depth)、大脑(LingBot-VLA)和世界模拟器(LingBot-World),那么今天的LingBot-VA,就是让这具躯壳真正拥有了灵魂
' j  g+ l2 i$ z/ P* {3 @一个行动中的世界模型,让想象真正落到执行层面。$ a* D. c# z3 f% H/ Y+ q, o$ e
如此一来,通用机器人的天花板,算是被蚂蚁灵波往上顶了一截。
/ I7 H, n) R  F. n, D! a" U正如网友所述:) I% g/ b7 v& t& t$ |) q* u

! c2 W- Z9 S1 H) k& \9 N0 _' W

2 S& g* t$ u* Z4 d1 h; [

    # ^5 C9 Q) `- s2 a" u: K' M
  • 从预测到执行;说实话这是巨大的飞跃。- h- {* g% R6 _3 K; u3 f$ q: A
/ K  @+ S" R2 u' m! k+ ^) C
UkQZbMvba5MhQLsw.jpg
$ D' b6 K2 q* M0 @& l: u
0 A0 M% t0 u9 A; O# l; ]2 j. w( R2 e
3 U$ V& `2 f% i
让想象力先行一步' I9 e. b0 P9 F; R+ t- G# ~6 V

" o# g8 z; w5 m4 c- U, Q  }. z0 H: u. _; D, W! O7 C& M
LingBot-VA在架构设计上选择了一条更进一步的路径。, q9 f5 c/ s' S. [
在传统的VLA(视觉-语言-动作)范式中,模型通常会将视觉理解、物理变化推理、低层动作控制这三项复杂任务放在同一个神经网络中处理,这在学术界被称为表征缠绕(Representation Entanglement)。; I& f6 x# K7 r1 M* D
为了追求更高的样本效率和更强的泛化能力,LingBot-VA选择把这团乱麻解开,提出了一套全新的解题思路:先想象世界,再反推动作。
2 B% f. E" N% U* s: h  S3 C为了实现这个想法,蚂蚁灵波团队采用了一个两步走的策略:
: u$ s. y) t' ^4 z; P# e+ X! A$ W' }1 U: M% i, a/ H
    8 [& g* g: M, h) @. ?7 K# y- u
  • 视频世界模型:先预测未来的视觉状态(接下来会发生什么)。0 c9 s: O, T" A
  • 逆向动力学(Inverse Dynamics):基于视觉的变化,反推出应该执行什么动作(为了达到这个画面,手该怎么动)。
    " A2 x0 L1 ]" X/ `
' Z( n4 \. m; U8 R0 i% D% a9 n
这与传统VLA有着本质区别:它不直接从“现在”跳到“动作”,而是要经过一下“未来”这个步骤。; F4 m5 U4 T; d/ o/ h4 H) F
如何实现?蚂蚁灵波团队主要将三个架构层面作为突破口。3 P" y6 x* w' V7 ^9 T; E' i! n6 ]
uCcqC7xs7zSi538w.jpg
7 s4 k) u7 H5 Q+ B' \* J' E& T  j
4 n* @( {8 y9 }+ H7 h" H* @# F
首先就是视频与动作的自回归交错序列, X" k; \: l. i+ G' o8 ^9 w1 V
在LingBot-VA的模型里,视频Token和动作Token被放进了同一条时间序列里。
$ F' T8 t6 Q9 H- N为了保证逻辑严密,团队引入了因果注意力(Causal Attention)。这就像给模型定了一条死规矩:只能用过去的信息,绝对不能偷看未来。
+ h/ @  j8 T# D% b' S3 Z9 X同时,借助KV-cache技术,模型拥有了超强的长期记忆。它清楚地知道自己三步之前做了什么,任务绝对不会失忆。/ X% S7 \# Y( t* G3 X+ K$ b
po1MA3kS2KTo2nso.jpg / k; _$ y: U8 Z, n( o" _. l! V4 \
+ Z( t) q$ i. \

* R0 T3 }+ k3 s  i! P% L7 j其次是Mixture-of-Transformers (MoT) 的分工协作
, F0 |- Z; |) {这一步主要是为了解决我们前面提到的表征缠绕的问题。$ V. M4 \) j! H; H2 ^! \) l
我们可以把过程理解为“左右互搏”,但又很默契的一种配合:
3 E5 \7 E# U3 Y9 i) r% `7 V  L0 k% o) i' R' N1 z1 j

    / x& B: L+ [) [
  • 视频流:宽而深,负责繁重的视觉推演。
    7 I5 V' D( U) o+ q* C
  • 动作流:轻而快,负责精准的运动控制。& i& w# s- j# A+ `# N3 N, W
8 m) N# ~! t% F
这两个流共享注意力机制,信息互通,但在各自的表征空间里保持独立。# M4 Y6 d1 \& X: b# i" u, Q
这样一来,视觉的复杂性不会干扰动作的精准度,动作的简单性也不会拉低视觉的丰富度。, i7 t6 z- n5 a$ e2 U! w5 N2 E
最后就是工程设计相关的工作。; S! H! N% A+ V0 L: C
毕竟光有理论是不好使的,“实践才是检验真理的唯一标准”:! _  G0 @3 I2 U& O3 N
2 h7 l- o) S, E! _

    5 f9 Z+ ?* a  r
  • 部分去噪(Partial Denoising):做动作预测时,其实不需要每一次都把未来画面渲染得高清无码。模型学会了从带有噪点的中间状态里提取关键信息,计算效率大大提升。
    - V% f" t7 C0 \& e9 ?+ z2 J* P6 T% b
  • 异步推理(Asynchronous Inference):机器人在执行当前动作的时候,模型已经在后台疯狂计算下一步了。推理和执行并行,延迟感几乎消失。
    & L3 x. t) A6 p% E$ I* `
  • FDM 接地(Grounding):为了防止模型想象力脱离现实,系统会用真实的观测数据不断校正想象,避免出现开放式的幻觉漂移。
    : _0 q- x# ^1 A4 e9 L1 Y1 V1 c
实验结果与能力验证4 y7 R8 I( ]4 w' C

, A% z  X0 o0 {% ?8 S  g% G- z3 r# i# T  Z) q+ U8 L- \- J
在了解完理论之后,我们再来看实验效果。9 |# v" H* r/ V" }, F2 l
蚂蚁灵波团队在真机实验和仿真基准上,对LingBot-VA进行了全方位的实测。
3 i* t/ R# {" U" j" R在真机测试中,LingBot-VA覆盖了三类最具挑战性的任务。  f" {0 e/ G$ R* t* `& h/ r% [
首先是长时序任务,比如准备早餐(烤面包、倒水、摆盘)、拆快递(拿刀、划箱、开盖)。
8 P6 G# D2 K; M, T3 G UzhchDLkele8AVnz.jpg
0 W6 A) {& l7 \/ w& ^4 _
0 ]8 ^1 x2 [% |9 Y  V9 C
: [5 w: b5 P- {  m7 ^* P! l视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA* y) \  O; S+ y0 c! F
这些任务步骤繁多,但凡中间有一步有误,那可以说是满盘皆输。从LingBot-VA的表现来看,一个字,7 O/ u) w% h# V+ ?
即便是不小心失败了,机器人也会记得进度,尝试重来。8 y7 G. m9 e1 |+ |
第二类是高精度任务,比如擦试管、拧螺丝。9 k  I( M, V% ]+ B4 ~1 R0 W$ H9 }0 n
j6u2WDrWWhQu65wu.jpg
+ {5 R! F; [3 p, d4 }" k- p" k3 {" }6 J9 l) D$ A" ~! K$ Q

, y3 Z: }! g2 t% M( g% \视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
5 J+ a6 r; X$ u, @" n这要求动作精度达到毫米级,得益于MoT架构,动作流不再受视觉噪声的干扰,手极稳。; Z( G" u8 J( i" h0 b% J  Y$ f' M
刚才我们已经看了擦拭管的案例,再来看个拧螺丝的:  o) T$ t. U3 ?# w3 r8 ~" [' \2 C0 V
第三类任务是针对可变形物体,例如折衣服、折裤子。
* T+ n. t! Z6 i/ d1 A RFy2a5FyU3g2yVgU.jpg % ~2 n5 K( s( `$ A, S1 G! u

6 _3 i- q; C4 h1 z* g* N4 v* t
( Z1 j$ z1 Z9 G1 ~视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
: e2 K0 A* t8 C0 d这些任务的难点在于物体处于一个随时变化的状态,但LingBot-VA通过视频推演,预判了布料的形变,操作行云流水。8 A4 ^. p! [0 e; R2 d
除此之外,LingBot-VA在RoboTwin 2.0和LIBERO这两个硬核仿真基准上,也是很能打的。
5 H& w8 f/ z; l. X  Q9 l0 q尤其是在RoboTwin 2.0的双臂协作任务中,无论是简单的固定场景(Easy),还是复杂的随机场景(Hard),LingBot-VA都展现出了不错的实力:. Q0 _1 i% f  b! F! _# b( y3 p5 `

5 t. N: ^/ a) t0 Q4 `9 C

    3 g& P0 M9 E+ k! S5 r& E8 u
  • RoboTwin 2.0 (Easy):成功率92.93%,比第二名高出4.2%。' k7 l7 a% u; O0 w
  • RoboTwin 2.0 (Hard):成功率91.55%,比第二名高出4.6%。
    % v! W+ P4 Y/ L/ l9 ?9 |9 m6 W
- f9 g  R; f5 l7 H
m0uLHx8KIYtblITY.jpg 7 }7 x$ g  y& J. B! w; J3 v

3 g# h0 P) W6 d$ H* P, Q; b5 H
& ]$ w6 w" r8 x0 }- l4 Y而且有一个趋势非常明显:
9 v" [) S$ w$ i9 X3 S, r. @任务越难、序列越长(Horizon变大),LingBot-VA的领先优势就越大。2 t) s, A- _: ?/ r; P2 w  T
在 Horizon=3 的长任务中,它的优势甚至扩大到了9%以上。$ H- Q" ^& l- T
而在LIBERO基准测试中,LingBot-VA更是拿下了98.5%的平均成功率,刷新了SOTA记录。
( R- `3 K8 ^, i; P6 `% m7 A S1c993tnn7RIc9Ts.jpg . `% W1 T: w( d" y& f4 Q; R1 E5 N0 o

: _! t$ E5 o4 ]& E! Y9 T
! v+ D# s8 V  x4 \# \7 c0 {总结一下,通过这些实验,我们可以清晰地看到LingBot-VA的三个核心特质:
' K" q2 Q/ v: _# j6 G
8 w4 S/ ]5 q0 q

    6 N- g" D, A3 Z/ o  J' B( x1 C, T
  • 长期记忆:在一个来回擦盘子的计数任务中,普通VLA模型擦着擦着就忘了擦了几下,开始乱擦;LingBot-VA 则精准计数,擦完即停。这就是KV-cache的起到的作用。8 {2 j8 Z6 @5 ]  y- f* T, @' D
  • 少样本适应:面对全新的任务,只需提供50条左右的演示数据,稍微微调一下,它就能学会。这比那些动辄需要成千上万条数据的模型,效率高了几个数量级。
    $ ^! U! Q% F+ h7 y
  • 泛化能力:训练时用的是某种杯子,测试时换个形状、换个颜色,或者把杯子随便摆个位置,它依然能准确识别并操作。
    * M6 a% W8 a- X% C, d; y" X

& C0 Z+ u5 a! w ULiyol7i1rZrOO2S.jpg
( d' K0 ?6 _- ~3 ?. e; d
2 R9 H7 N- [4 {" X7 q/ M" X: _( u# h9 H4 R5 u' Y

4 c- _* [, e/ L7 r连续四天开源,已经产生影响, c; b% F/ h9 R! J2 I/ Z( z' Y' _
- {0 {- N6 S0 c5 k4 m
0 L8 o" l: c" h
把时间轴拉长,回看这四天的连续开源,我们会发现蚂蚁灵波下了一盘大棋。) m0 @" y% @* k0 a
因为这四个开源项目拼凑在一起,就会形成一条非常清晰的技术主线:  l* I( o8 w, B
, M% J+ ]% t- H( w' z
    + B/ o  N! j9 S% a' [
  • Day 1: LingBot-Depth——解决“看清”的问题。让感知能够更加清晰。7 d8 X* T: q8 N+ }4 J9 c2 `
  • Day 2: LingBot-VLA——解决“连接”的问题。打通语言、视觉到动作的通用接口。
    / J. o( ~! v; \6 S2 `3 f+ B
  • Day 3: LingBot-World——解决“理解”的问题。构建可预测、可想象的世界模型。* n) p$ s* [) I1 x+ A
  • Day 4: LingBot-VA——解决“行动”的问题。把世界模型真正嵌入控制闭环,让想象指导行动。! g. d' r7 f7 F* w) d: I

5 X" V' P1 W2 ~+ a6 P这四块拼图凑在一起,释放了一个强烈的信号:$ `( I) I6 y8 b' r# s( x
通用机器人正在全面走向视频时代。6 Y2 \: G; y' z7 ?: `1 L
视频,不再仅仅是训练用的数据素材,它正在成为推理的媒介,成为连接感知、记忆、物理和行动的统一表征。
# l' i: c6 p, j. i, y7 O3 x# _" D$ \这对于整个行业来说,价值是巨大的。/ V) }7 N% f: ^# M1 B- Z, [0 C
对通用机器人来说,长任务、复杂场景、非结构化环境,这些曾经的硬伤,现在有了系统性的解法。3 Z, [0 q6 k& a/ v0 \* d
从具身智能路线来看,世界模型不再是一个可选项,它正式成为了机器人的中枢能力,从“能动”进化到“会想再动”。0 U  L" k" p& \( b) Y
并且蚂蚁灵波的持续不断地开源动作,不仅仅是提供了代码、模型这么简单,更是一条可复现、可扩展的技术范式。
" z2 U% g& Y2 ]- M# X5 D) F4 L而蝴蝶效应也在行业中开始显现。
! ~; l5 l4 x- r9 {就在这两天,谷歌宣布通过Project Genie项目让更多人体验Genie 3;宇树科技宣布开源UnifoLM-VLA-0……" T. b9 B5 H6 Y% H: ^: ^6 ^
海外媒体也对蚂蚁灵波的开源动作有了不小关注,点评道:5 s5 T' ?6 N/ h3 s5 x* |

9 ?  B" B+ Q6 x4 ~9 O5 d

4 t$ Y( Y1 f7 L

    4 _" r4 c7 M/ Z0 l) {
  • 蚂蚁集团发布了名为LingBot-World的高质量机器人AI模拟环境。这家中国金融科技公司完善了一套完整的开源工具包,用于物理AI系统的开发。这也是在全球机器人领域主导权争夺战中的一项战略性举措。& s8 K8 o! p& o! H/ b2 f* B
6 q+ n4 V. O# A. n8 N
e3KRKkGX3fCCeCEy.jpg : D/ V( s8 Z& [

0 [/ ^( A  Q& q7 A( Z9 y4 }& _# W! D0 w
嗯,蚂蚁灵波的压力是给到位了。: l) Q8 L- r+ g  s9 J
总而言之,LingBot-VA的出现,标志着世界模型第一次真正站上了机器人控制的主舞台。2 s2 @* y4 e  n! n
项目地址:7 \8 O4 r+ X$ D' I; H
https://technology.robbyant.com/lingbot-va: I0 x2 l$ R9 f" |, b2 [& h2 C
GitHub地址:8 l& h5 X. Y  V: |: k2 R; @, N# L
https://github.com/robbyant/lingbot-va% I4 h* m+ U. O: v9 z! D: O
项目权重:# L& R/ _4 N# I0 Y7 W# P& o
https://huggingface.co/robbyant/lingbot-va& b) I# R5 I( D" v8 L. F+ {" Z
https://www.modelscope.cn/collections/Robbyant/LingBot-va
集群智慧云科服专利申请服务
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表