找回密码
 立即注册
查看: 442|回复: 0

大事不好!机器人学会预测未来了

[复制链接]

4077

主题

535

回帖

1万

积分

论坛元老

积分
12921
发表于 2026-2-15 21:00:37 | 显示全部楼层 |阅读模式
金磊 发自 凹非寺
8 d" e4 C1 J& P量子位 | 公众号 QbitAI
, u8 n3 |' a/ `0 G; U

  {2 \( [7 j; f3 \: K不得了,机器人现在开始学会脑补未来了。
0 O- E0 @9 G6 D+ |这就是蚂蚁灵波又又又又(连续第4天)开源的狠活儿——
3 c: f$ z1 G* H6 B2 G# Q全球首个用于通用机器人控制的因果视频-动作世界模型,LingBot-VA
4 G* g& @8 J7 O- v+ Z6 Q lIiZiXBTgq8ZMik3.jpg 4 c2 U! R6 \7 v1 p: o% m+ Q- o
) ^3 P9 G/ e# p+ }

  ?! E7 r" O) e* `怎么个脑补法?7 R& z3 B  N+ o
简单来说啊,以前的机器人(尤其是基于VLA的)干活儿,主打一个条件反射:眼睛看到什么,手立刻就动一下。  D) W% m* M. \; F6 c( q' ]% L
这叫“观察-反应”模式。
7 ]0 w/ ^+ s5 ?9 L但LingBot-VA就不一样了,它通过自回归视频预测打破了这种思考方式,在动手之前,脑子里先把未来几秒的画面推演出来。! T1 M2 d: M( Z" {: [( X' w% D, f
说实话,用想象力做决策,在机器人控制这块还是相当新鲜的。
- H5 |6 X) d4 |& C9 s0 H但这不是LingBot-VA唯一的亮点,还包括:* B/ s( W, a2 r, h' j

; N" R1 [; t( p9 H& Q& `8 i

    " J; g8 m# \8 A  P* W4 \* \
  • 记忆不丢失:做长序列任务(比如做早餐)时,它会记得自己刚才干了什么,状态感知极强。
    8 K* f1 z4 u  @+ d
  • 高效泛化:只要给几十个演示样本,它就能适应新任务;换个机器人本体,也能hold住。
    8 [* p+ [" l% u/ s3 C
$ c, i( Z! l, C( N; d
O8G7Z3Y88Ym0AgAY.jpg ( l( q8 M. h6 k8 L  V

- x7 {2 l* T0 C( S& z9 b' d2 V, Q$ ]* ^- a
因此在LingBot-VA的加持下,像清洗细小的透明试管这种高精度任务,机器人已经是可以轻松拿捏:# w0 T( X6 r5 i& ^" h
M5m7T5505W3cg4Wc.jpg # p, m6 A/ e! d7 A
+ C& J# Z. o$ W: F0 J

% f% b/ z( ]) M/ k( ^视频地址:https://mp.wEIxin.qq.com/s/xqE6C72usddKMc4EH89myA2 B- M+ S" J" n9 T! |. R
正如我们刚才提到的,今天是蚂蚁灵波连续第四天开源。' C! Z# {* X+ [: i. ?7 k7 Q! Q
如果说前几天的开源是给机器人加强了眼睛(LingBot-Depth)、大脑(LingBot-VLA)和世界模拟器(LingBot-World),那么今天的LingBot-VA,就是让这具躯壳真正拥有了灵魂# N6 t# v2 q; M( ]) I
一个行动中的世界模型,让想象真正落到执行层面。9 a6 |6 D- `0 w, E5 V4 O
如此一来,通用机器人的天花板,算是被蚂蚁灵波往上顶了一截。* W# t( G& x$ t* g5 E
正如网友所述:
8 P! W+ R2 _4 e/ E) H: U1 p
- o  p6 b8 O% U: _& Y& m  o* m
" q5 B5 a+ S' b/ t
    ; U) H- E9 y9 E$ g2 ?* o0 D
  • 从预测到执行;说实话这是巨大的飞跃。
    6 o, _4 b( S" J: C2 w. Q% M+ R2 m
% V; r" x1 \3 C) ?, v
UkQZbMvba5MhQLsw.jpg
- c( ^" M, r. [: Y- D' X
0 U6 O: H- T& ?( ^  w% _! d4 J2 d
* p5 J& I$ F# Q# S0 I8 u7 g" H. G9 z& g% r3 p% m
让想象力先行一步$ o, h4 z8 l2 K) w# T  h
0 X1 n# W& \) Z9 t$ R

, g; ~' G7 p2 d# d( @) H. I( XLingBot-VA在架构设计上选择了一条更进一步的路径。6 q: h5 e- _6 B( O7 w5 z" ]
在传统的VLA(视觉-语言-动作)范式中,模型通常会将视觉理解、物理变化推理、低层动作控制这三项复杂任务放在同一个神经网络中处理,这在学术界被称为表征缠绕(Representation Entanglement)。
" T6 O- T9 E& l' W# }: R为了追求更高的样本效率和更强的泛化能力,LingBot-VA选择把这团乱麻解开,提出了一套全新的解题思路:先想象世界,再反推动作。
+ M0 g- C$ v- c! C! @5 k6 C为了实现这个想法,蚂蚁灵波团队采用了一个两步走的策略:) T6 v) B; d  y, |- T
0 y/ D) k' I3 C7 s+ t
    / f+ P* I+ w* f. q7 y8 l
  • 视频世界模型:先预测未来的视觉状态(接下来会发生什么)。
    2 R9 [4 s/ y4 k, a- T$ o: _
  • 逆向动力学(Inverse Dynamics):基于视觉的变化,反推出应该执行什么动作(为了达到这个画面,手该怎么动)。* v% `5 |5 e7 L) \
4 g4 y" ^: G' }# E1 J& _
这与传统VLA有着本质区别:它不直接从“现在”跳到“动作”,而是要经过一下“未来”这个步骤。  d- b* U* U& P' A0 t/ c
如何实现?蚂蚁灵波团队主要将三个架构层面作为突破口。* Q( J9 s& K- B7 N; o
uCcqC7xs7zSi538w.jpg
  A7 ^3 _4 t# z3 X( c! e' ]* T4 l0 T  F
" j+ V* v/ B0 D& }, \- h% W
首先就是视频与动作的自回归交错序列0 Z# L- S- d& t5 [8 A  V( a
在LingBot-VA的模型里,视频Token和动作Token被放进了同一条时间序列里。4 m1 F* L5 S6 c* [- w3 l* |
为了保证逻辑严密,团队引入了因果注意力(Causal Attention)。这就像给模型定了一条死规矩:只能用过去的信息,绝对不能偷看未来。9 m5 O8 M. O4 ^
同时,借助KV-cache技术,模型拥有了超强的长期记忆。它清楚地知道自己三步之前做了什么,任务绝对不会失忆。* n; Y- u3 i2 h4 X# ^0 ]
po1MA3kS2KTo2nso.jpg # I/ m; O) I- R7 e9 I# }
: z) h8 e) H( j; C; f
7 h9 i* Z% z0 H2 O, T: G
其次是Mixture-of-Transformers (MoT) 的分工协作5 o% P: ~7 T" \8 I' v0 m' r# o9 H2 c
这一步主要是为了解决我们前面提到的表征缠绕的问题。
7 k8 O& e1 N% v: o! w我们可以把过程理解为“左右互搏”,但又很默契的一种配合:
# [! x+ r/ d7 b+ D. x3 }3 {
+ p. n4 v) `9 {5 O
    ' c. f1 v" j0 S* _  T3 E
  • 视频流:宽而深,负责繁重的视觉推演。
    * n. x) z9 U. G  Q% s
  • 动作流:轻而快,负责精准的运动控制。) Y' T  k( b) _# ~5 i

: ?5 t0 s! i# p6 ~1 D这两个流共享注意力机制,信息互通,但在各自的表征空间里保持独立。0 B7 D) E3 L2 W7 R4 S$ z6 ^( R
这样一来,视觉的复杂性不会干扰动作的精准度,动作的简单性也不会拉低视觉的丰富度。5 h3 {, ~! L( \6 P8 h0 A
最后就是工程设计相关的工作。; o6 K# C* k6 C! q- [1 C1 |2 Q  D! ]. b
毕竟光有理论是不好使的,“实践才是检验真理的唯一标准”:9 p) ^# ~; j. _- ^. H* d' X

: j) P- [* l% c8 n

    $ r! l7 e5 R1 C* g7 C
  • 部分去噪(Partial Denoising):做动作预测时,其实不需要每一次都把未来画面渲染得高清无码。模型学会了从带有噪点的中间状态里提取关键信息,计算效率大大提升。
    + ]5 X" b2 M1 @! H2 n, _8 [
  • 异步推理(Asynchronous Inference):机器人在执行当前动作的时候,模型已经在后台疯狂计算下一步了。推理和执行并行,延迟感几乎消失。5 w) @. F  n- W$ ?
  • FDM 接地(Grounding):为了防止模型想象力脱离现实,系统会用真实的观测数据不断校正想象,避免出现开放式的幻觉漂移。
    ) A5 A4 W4 \+ F4 Z, `$ Y9 w0 e
实验结果与能力验证3 Q4 O8 X# O% ~" W- |
5 X2 n' w, @* G" ^
9 B7 P* ?2 }& _: x0 x2 }
在了解完理论之后,我们再来看实验效果。. B3 w; m; ]4 h% Q# h( k& N
蚂蚁灵波团队在真机实验和仿真基准上,对LingBot-VA进行了全方位的实测。6 i: @4 B7 M- e+ Q  Y
在真机测试中,LingBot-VA覆盖了三类最具挑战性的任务。
8 t( I. K' [( J  l首先是长时序任务,比如准备早餐(烤面包、倒水、摆盘)、拆快递(拿刀、划箱、开盖)。
; C" J1 A/ S& ^ UzhchDLkele8AVnz.jpg / n. i- l: z, i9 P; d
+ J, z# Y7 A1 y2 u2 M; `

( Z6 ]/ q4 d2 S  K. ?% D; X视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA0 ^- h+ _% J2 {+ s/ K
这些任务步骤繁多,但凡中间有一步有误,那可以说是满盘皆输。从LingBot-VA的表现来看,一个字,8 x2 o& Y+ i1 s- ^: D
即便是不小心失败了,机器人也会记得进度,尝试重来。
' b9 p8 M4 ~7 n+ i第二类是高精度任务,比如擦试管、拧螺丝。7 o& S! m9 {! V: L) ^
j6u2WDrWWhQu65wu.jpg
* A7 x9 p  Y6 R" D% l
- B8 S; s6 N( ]$ @
1 A% Q) j& c7 ]' o- s" Z视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA. G' A  x4 A. M* X; Y9 M
这要求动作精度达到毫米级,得益于MoT架构,动作流不再受视觉噪声的干扰,手极稳。
) w& \# _3 r8 x刚才我们已经看了擦拭管的案例,再来看个拧螺丝的:
6 @. n5 u) U0 V. Y第三类任务是针对可变形物体,例如折衣服、折裤子。8 O1 W. n; ]+ @" F- D9 b
RFy2a5FyU3g2yVgU.jpg
9 ]; [7 A6 r. H( [* p3 M7 Y
8 D/ ^0 n: q3 E  r5 o) g+ a5 X; Q6 H$ ~
视频地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
# n- ~# w+ z' h; ^1 l这些任务的难点在于物体处于一个随时变化的状态,但LingBot-VA通过视频推演,预判了布料的形变,操作行云流水。
; \. D; I. a; Q9 E* R除此之外,LingBot-VA在RoboTwin 2.0和LIBERO这两个硬核仿真基准上,也是很能打的。4 d% J4 o1 m+ A' l7 P! ^
尤其是在RoboTwin 2.0的双臂协作任务中,无论是简单的固定场景(Easy),还是复杂的随机场景(Hard),LingBot-VA都展现出了不错的实力:8 |# |# m, p" z/ I  w& h
/ b( f- e6 g/ H

    2 a# e+ y, x" B; f' D! I
  • RoboTwin 2.0 (Easy):成功率92.93%,比第二名高出4.2%。
    ! Z3 v' |. G$ T6 J6 q6 R
  • RoboTwin 2.0 (Hard):成功率91.55%,比第二名高出4.6%。$ }9 Y5 K' [9 u3 G$ @6 W
( a$ _( r. C+ ~: u' [  E
m0uLHx8KIYtblITY.jpg
( [, c, O7 Y  I* Q: h0 g: Q- a2 n/ y5 J! }& K$ P7 z; z2 U9 O! Q
. e/ H' E) u' E
而且有一个趋势非常明显:
: P9 }& R6 `7 h* n任务越难、序列越长(Horizon变大),LingBot-VA的领先优势就越大。1 e2 N* [* d% h+ n& @. Y$ e
在 Horizon=3 的长任务中,它的优势甚至扩大到了9%以上。
6 F1 ^6 s) Z* d1 q# P而在LIBERO基准测试中,LingBot-VA更是拿下了98.5%的平均成功率,刷新了SOTA记录。( A! X* D4 S" x4 Q
S1c993tnn7RIc9Ts.jpg
4 B7 N9 U- X- V# s5 _' T* \- w4 K2 q5 E2 K1 i# m2 r
- e2 ]( Y- ~9 {. j% a9 g5 d1 w
总结一下,通过这些实验,我们可以清晰地看到LingBot-VA的三个核心特质:
# l) C3 d' [4 J( Y- z* h& @# |1 _  _8 ~0 B2 \; @

    $ P" Q. d& J8 E4 G# P9 z9 M
  • 长期记忆:在一个来回擦盘子的计数任务中,普通VLA模型擦着擦着就忘了擦了几下,开始乱擦;LingBot-VA 则精准计数,擦完即停。这就是KV-cache的起到的作用。
    * H, c8 k9 Q0 R$ w' \( O
  • 少样本适应:面对全新的任务,只需提供50条左右的演示数据,稍微微调一下,它就能学会。这比那些动辄需要成千上万条数据的模型,效率高了几个数量级。
    / k. u+ U5 k5 ~7 _4 W) k7 _5 V9 X9 W
  • 泛化能力:训练时用的是某种杯子,测试时换个形状、换个颜色,或者把杯子随便摆个位置,它依然能准确识别并操作。
    - y+ ]6 K0 F8 |# L7 ?. }/ Z

8 l6 U2 ^; C  B' R7 F8 f1 [ ULiyol7i1rZrOO2S.jpg
6 r+ a6 ^- I# D8 D  ^0 Q' |
8 k/ D3 q% B) }( \9 C1 `7 i5 J5 v9 H, F8 ]3 b% e

: C2 J4 r. d# J* N( `6 R# \, W连续四天开源,已经产生影响
) o9 A3 u! O5 G- M
- M* X; ]& ^. I/ K  L/ a" f8 O$ q' w# c& R
把时间轴拉长,回看这四天的连续开源,我们会发现蚂蚁灵波下了一盘大棋。' ?- ^3 V2 R3 U% s  Q
因为这四个开源项目拼凑在一起,就会形成一条非常清晰的技术主线:4 b( @1 [( ~7 }- v/ t+ U

( I/ o! o2 |. O) {: _

    ; E" Q& z# k2 l, \9 `5 O
  • Day 1: LingBot-Depth——解决“看清”的问题。让感知能够更加清晰。% L9 N0 C5 T  q5 M, o3 z
  • Day 2: LingBot-VLA——解决“连接”的问题。打通语言、视觉到动作的通用接口。
    / x, P+ ]7 p) {
  • Day 3: LingBot-World——解决“理解”的问题。构建可预测、可想象的世界模型。
    % d& X' `0 ]7 f% j
  • Day 4: LingBot-VA——解决“行动”的问题。把世界模型真正嵌入控制闭环,让想象指导行动。( z/ i5 }7 ?& H: W0 b+ C$ S

+ _( |7 ?5 ^3 e9 t这四块拼图凑在一起,释放了一个强烈的信号:
) f9 s7 k  ~% A) s, D通用机器人正在全面走向视频时代。
# t. D/ |  w4 o& B视频,不再仅仅是训练用的数据素材,它正在成为推理的媒介,成为连接感知、记忆、物理和行动的统一表征。; r: r3 B% L$ F! ]5 w/ u1 m" K6 j! H
这对于整个行业来说,价值是巨大的。4 j) G8 N8 y# a8 G7 @3 y
对通用机器人来说,长任务、复杂场景、非结构化环境,这些曾经的硬伤,现在有了系统性的解法。
# ]0 F) q; B  q) @1 b从具身智能路线来看,世界模型不再是一个可选项,它正式成为了机器人的中枢能力,从“能动”进化到“会想再动”。
# m5 ?1 B( {: \# D% s0 O+ P并且蚂蚁灵波的持续不断地开源动作,不仅仅是提供了代码、模型这么简单,更是一条可复现、可扩展的技术范式。
$ Z" B* B* j7 X2 Q! `1 s5 @# f1 K而蝴蝶效应也在行业中开始显现。. J, L0 y) Y3 J/ w% n# u
就在这两天,谷歌宣布通过Project Genie项目让更多人体验Genie 3;宇树科技宣布开源UnifoLM-VLA-0……7 R# E. s+ x! k& y0 r$ [
海外媒体也对蚂蚁灵波的开源动作有了不小关注,点评道:+ I; {, u! \3 n+ Z3 o8 p) h

; `7 h7 \& r7 X( C4 Z* T- g
) Q& S( ?6 a$ t- _0 z; K! k

    * `( N2 w- u# E5 f$ e& D3 n
  • 蚂蚁集团发布了名为LingBot-World的高质量机器人AI模拟环境。这家中国金融科技公司完善了一套完整的开源工具包,用于物理AI系统的开发。这也是在全球机器人领域主导权争夺战中的一项战略性举措。
    0 Z4 y4 I8 i6 I4 Y: v
6 D2 Y1 I$ R5 {* T8 P
e3KRKkGX3fCCeCEy.jpg
6 a1 J* v# b" z! j) V2 W. p) n- P1 A$ a9 `1 u3 ?3 ^% M
: [$ Y* Y8 e% b( h2 R
嗯,蚂蚁灵波的压力是给到位了。
% g8 b3 m6 L  w- i' f总而言之,LingBot-VA的出现,标志着世界模型第一次真正站上了机器人控制的主舞台。
1 T8 k8 l* V6 P项目地址:; D$ T/ B4 u! P/ q, H2 ~7 y) `
https://technology.robbyant.com/lingbot-va1 R* \) s" N' y/ W2 N, o" j: A" U) X
GitHub地址:) f6 g& s  }- i  d( z
https://github.com/robbyant/lingbot-va' b/ L! p- `) `, A+ k
项目权重:
( f  X& }, X1 l3 m) g  f5 }https://huggingface.co/robbyant/lingbot-va
1 o. M, \# k0 O8 n9 i# {https://www.modelscope.cn/collections/Robbyant/LingBot-va
集群智慧云科服专利申请服务
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表