找回密码
 立即注册
查看: 726|回复: 0

阿里Qwen、上交大等提出预训练动态数据选择范式OPUS

[复制链接]

62

主题

16

回帖

249

积分

中级会员

积分
249
发表于 2026-3-30 21:58:34 | 显示全部楼层 |阅读模式
Wo8OVi8KZiKMRFZA.jpg
  b  B; J5 ~: W6 e  Q
5 v9 p; j. c4 |- n9 G0 e
0 P+ c# p8 k8 |$ B" a在 “大模型预训练” 这件事上,行业里几乎有一条默认信条:想要更强,就得喂更多、更新、更高质量的数据。但最近一篇来自阿里巴巴、上海交大、UW–Madison 等团队的工作,在 Hugging Face Daily Paper 冲上月度 Top1 后,直接把这个共识撕开了一道口子:只从中低质量数据里动态挑选,竟然能打赢 “高质量数据优先” 的经典训练配方。1 s0 Z  N( j' J/ S) P" a" Y' d
aZokkp994JeOe3jA.jpg
1 |. y/ q' N5 _  O- _5 d% i) ^
+ K$ Q+ j, f1 F5 ?) p1 l
, N0 l# d$ g' \( C这条结论之所以让社区炸锅,不只是因为它 “反直觉”,更因为它击中了一个长期被忽略的问题:我们今天用 AdamW、Muon 训练大模型,却还在用偏 SGD 时代的思路给数据打分。 说得更直白一点 —— 我们一直在拿 “旧地图” 给 “新导航” 指路。而这篇工作真正厉害的地方是:它不是在 “玄学筛数据” 上做小修小补,而是把数据选择这件事,第一次系统性地对齐到了优化器真正决定的更新方向上。
0 @) [0 ~: M+ V4 R+ g+ [ ZXJdyztQ2jEtrQsx.jpg / d/ W! s  ^, G

6 A& z0 F5 q) |- K! t) Y4 i! j3 V% j- ~, {+ `7 [
5 `- \; I. Y/ ]2 b2 R& o

    4 J: G. \7 a" Q
  • 论文链接:https://arxiv.org/pdf/2602.0540' H* {% Z$ B- D7 O5 ?

/ p5 J( P: j; g7 a) ]
从 “数据饥渴” 到 “数据墙”,预训练进入 “每个 token 都要算账” 的时代

; N+ W% o* n7 j; n) |& j过去十年,大模型能力提升的主旋律,是一条几乎无人质疑的路径:模型更大、数据更多、算力更猛。但今天,这条路正在撞上数据侧的天花板 —— 高质量公共文本逐渐枯竭,“Data Wall(数据墙)” 正在浮现。预训练也因此被迫从一个 “吞吐问题”,转向一个更关键的 “控制问题”:在第 t 步更新里,到底应该让哪些 token 来决定模型往哪走?4 y9 t2 y2 s1 M' b9 ?8 g4 b
围绕这个问题,行业里常见的两条路线都各有硬伤:
; L- I5 F# X1 {; }# E* ~
3 _/ H$ X4 R: _% y
    ' B$ X1 K( a) ~' [  q
  • 静态过滤:一次打分,长期食用。优点是简单、稳定、工程上好落地;但问题也很明显:它默认数据价值是 “固定的”。可现实是,模型会变强、训练阶段会切换、目标能力会迁移 —— 配方却不变,容易越训越 “钝”。
    7 U+ Z% K4 W9 Y: m, I5 v7 H
  • 动态选择:能够随训练过程实时调整,听起来更合理;但大多数方法仍然默认 SGD 视角,用 “原始梯度” 来衡量样本价值。问题在于:现实中的 LLM 训练,早已全面转向 AdamW、Muon 等现代优化器。: _( t2 d$ `) r5 R6 M9 ^

  • ( i' u* e. ^& S; p7 a: R
" E9 S" |$ y7 \/ f4 w3 E; X5 T
作者指出:当优化器改变了 “实际更新方向”,你用原始梯度选数据,就会出现一个 “方向偏差(misalignment gap)”—— 你以为喂的是有效训练信号,优化器却把更新投到另一条轨迹上。这就是 OPUS 的起点:数据选择不能再 “优化器无关”。
$ J) b8 J) o0 f* {+ B9 q
别替优化器点菜 —— 让优化器自己决定 “这口饭有没有用”

& y# b( r/ I( j, n Sx9916Zk00K6Ee9C.jpg : C' A5 d0 ]& P' Y9 O7 ~

- G/ D! K6 a+ M9 W
! A5 ]! |; a- m9 E- G4 _  Y4 uOPUS 的全称很直白:Optimizer-induced Projected Utility Selection。( |( ^# y* x: c$ i/ n" f
它做了一件看起来 “理所当然”,但过去很少被系统落实的事:
+ e. \$ ^& Z8 \4 R+ C$ [不再在 “原始梯度空间” 里评估样本价值,而是把效用(utility)定义在 “优化器诱导的有效更新空间” 里。
3 W  Q& H& [: t9 P. W换句话说,在 AdamW / Muon 训练中,真正推动参数变化的,并不是原始梯度本身,而是经过优化器预处理之后的有效更新方向。OPUS 做的,就是直接计算(或近似计算)每个候选样本在当前 step 下对参数的 “有效推动”,并进一步追问一个更本质的问题:如果我按 AdamW / Muon 的真实更新方式走这一步,这个样本会不会让模型在目标分布上变得更好?+ Z% {0 a  H& p1 N& Z
于是,“数据选择” 这件事就不再只是文本质量打分,也不只是梯度相似度技巧,而是被升级成一个更原则化的目标:最大化每一步更新的收益(utility)。3 l4 A( e5 N* M6 F4 S! ^
OPUS 的 “三件套”—— 目标对齐、可扩展估计、稳定选择
6 j' J, Y2 X! D# }
W1sj1NKRrNzJ9WNj.jpg 7 E, A7 J) Z( S- U
; W% a2 T- L5 D9 \

: x$ m. G. @' v) r' p0 l9 L) Z从论文 Figure 3 可以看到,OPUS 在每个训练 step 里,不再用原始梯度去 “猜” 样本价值,而是把样本效用定义在 AdamW / Muon 等优化器诱导的有效更新空间中。它的核心闭环可以概括为三步:' X7 T. q/ k* G/ u) S+ ^  \

  x, U; m, E* i6 p4 p/ p$ [. [7 T
    6 n8 t3 g9 F9 }' _' A% Y
  • 先对齐目标:构建与目标 benchmark 语义对齐的 Bench-Proxy 池,提供稳定的 “目标方向”;' S- m: _" W) O/ L8 N* @4 A
  • 再高效估计:用 Ghost + CountSketch 近似估计候选样本对 proxy 方向的对齐收益;
    5 A4 `) }( Z% W2 w3 h
  • 最后稳定选择:加入冗余惩罚,并通过 Boltzmann 软采样 选出当步最合适的训练样本。
    + u$ a& z+ s$ x2 b: x! a$ P" k
0 e* W# |2 F" Q7 x* Z" B! T2 T6 C
这套设计的关键意义在于:它让 “数据选择” 第一次真正和 “优化器实际执行的更新轨迹” 处在同一几何、同一方向上,从而显著提升预训练效率与下游泛化表现。; a9 J: n. E7 T6 r
1)效用怎么定义?—— 在 “有效更新空间” 里做对齐,而不是在原始梯度里 “看着像”
' T1 ]$ E- @& n8 g! H: z- y BSTQM0IXY8A8T8h8.jpg : a5 S% E8 c3 W

8 W% Z: ~. R! {% \1 V- I) J0 q# r
& E, ~9 v1 Q5 y6 I# FOPUS 把每个候选样本的价值拆成两部分:. S' m/ C6 q7 {2 t: B6 `
# d: g5 b  Z# j7 W
    3 N4 g6 k- L* D  Q( g, l
  • Alignment(对齐收益):样本带来的有效更新方向,是否与 “目标方向” 一致;% V5 n0 T' }7 a0 F+ {9 c4 h
  • Redundancy Penalty(冗余惩罚):避免连续选到一堆方向高度相似的样本,导致更新过于集中、训练不稳、收益递减。# R: e8 P( e4 g- S4 d$ \, ^; m
. [1 N, \; N) G: X. c/ Q! e0 {
这套设计把 “选最有用” 与 “选得多样” 统一进同一个原则框架里:每一步不仅要更快下降,还要避免把更新压成一条细线。/ ?" x6 W1 y( y
2)目标方向从哪来?——Bench-Proxy:既贴近 benchmark,又不脱离预训练流形
( V( N6 N6 b0 s2 L0 gBench-Proxy 并不是 “随便找一批相似文本” 作为代理目标,而是通过一个检索式构建流程得到的。具体来说,作者使用冻结的句向量模型,将:
6 }  K# }" o) {+ P4 p( a1 S' O# W9 {; K% h) p+ p7 L; J7 ^1 Q1 i8 w
    5 j1 n; @, d- ^! [* a8 N
  • 目标评测基准的验证集样本(如 MMLU、HellaSwag 等),以及
    / H$ A. H8 r) o8 f
  • 预训练语料中的文档
    8 s- p+ M4 E+ b# h& d# Z8 L

( H; V! L% A  E% F1 |0 v映射到同一语义空间,并计算余弦相似度。
; J( D" ], |! d; g" w随后,对每篇预训练文档分配一个 “相关性分数”(例如基于其与 benchmark 样本的最大相似度),再按分数排序并在给定 token 预算内选出一批文档,构成 Bench-Proxy 池。这样得到的代理池具有两个优点:
  [# _+ o8 ~  e, L% ]4 A
3 t" p4 {  C" g/ S( o- p% R. w

    0 m# c: q5 m/ C4 W1 ^5 T* U6 v
  • 语义上贴近目标 benchmark(有明确任务指向性);) h" z+ N8 H7 k- P; j7 u+ r) A
  • 分布上仍属于预训练语料流形(不会过度偏离预训练过程)。, ?6 k3 h' B3 B0 [1 J

7 |9 z" U" A- p# J! H+ p5 f训练过程中,模型反复从这个 proxy 池抽样,用于提供更稳定、低噪声的目标方向,从而让每一步的数据选择更可靠。这一点很关键:OPUS 不是直接拿 benchmark 当训练数据,而是用 benchmark 去 “定义方向”,再在预训练分布里找可执行的推进路径。% X" n, Q- l6 w& o, a; S# O% I
3)怎么把它做得足够快?——Ghost + CountSketch,把在线打分开销压到 “几乎可忽略”
$ Z- I8 G$ g+ c5 J$ g2 R# b& d* G在线数据选择最大的现实门槛,不是 “想法对不对”,而是 “算不算得动”。
& g; [+ _- W' n- v" ^" F* Y你不可能在每个 step 都为大量候选样本显式计算全维梯度并逐一打分。: [& E$ K2 f, G: w
OPUS 的工程解法是一套组合拳:
# l' ^4 V1 q9 x, f
% r+ S  Z; K; U; e% c9 G* ~
    * y) B) a- K- j# q( I" d
  • Ghost technique:利用线性层梯度的结构(如外积形式),避免显式构造完整高维梯度,降低显存与计算开销;
    7 _& |0 w6 |; G4 n
  • CountSketch:将高维有效更新投影到低维 sketch 空间,在近似保持内积结构的前提下完成对齐、相似度与冗余相关计算;
    $ @1 J! j, p+ g+ {
  • Boltzmann sampling:不直接贪心 top-k,而是通过温度控制的概率采样进行软选择,在利用高分样本的同时保留一定探索性,提升稳定性与多样性。
    / e" B2 z& g# v4 j0 K; j  x
* D- P4 b- [; f' [' p" m! s
结果是,OPUS 把 “每步在线选择数据” 的额外成本压到了一个可接受区间,使这件事在大规模预训练中也具备实际可行性。3 ^7 I6 U7 A4 C5 I$ x9 x0 |
KUP12sOAYSYUWP5w.jpg
) k0 e4 y  O# _1 @6 q' J0 c3 N6 _8 A" h" z  q% G

& z" r$ M0 Y- g7 X! T" k在论文的实现与测量中,OPUS 的额外计算开销约为 4.7%,使得 “每一步都做数据选择” 在大规模训练中也依然可承受。* T) R. h0 m4 G4 R; q; D: d
实验结果:不是小修小补,而是 “效率 + 性能” 同时抬头

. B7 X/ {; }, B$ Y7 {' B6 X1)FineWeb 预训练:平均 +2.2% 准确率,GPT-XL 上 8× 计算量节省
3 |) S. I9 o! P- B. g& v在 GPT-2 Large / XL 的 30B token 预训练设置中,OPUS 在 10 个基准上对比随机选择取得平均 1.5% 的准确率提升;在 GPT-XL 上还展示了 8× 计算效率提升的结果(相同效果所需计算显著降低)。更 “刺激” 的一点是:论文还报告 OPUS 能在某些设置中优于更大 token 预算(例如 60B token)训练的对照配置 —— 强调 “每步选对比多吃更关键”。
& C5 ~- i- h+ {# m o1GUuZEeOEU1c1gc.jpg
) p8 ^2 r, ]# O) ^4 {& E) H# l0 ?8 _6 b2 n  J

# Q; Y9 h! C! @$ F7 @. I* \; I2)FineWeb-Edu:反直觉名场面 —— 只用中等质量数据,也能打赢 “吃高质量数据” 的基线
! y- C1 h6 b' T: u# x' b作者专门做了 “难度更高” 的对照:把数据按质量分层后,OPUS 只从中等质量(如 score 3)里动态挑选,却能超过一些使用更高质量分区(score 4–5)训练的强基线。在 GPT2 Large/XL 30B 使用 FineWeb-Edu 的预训练设置中,OPUS 在 10 个基准上对比从高质量数据随机选择取得平均 3.18% 的准确率提升。它传递的信号很清晰:
  n" w5 {3 V5 Z数据质量很重要,但 “在正确的几何里、在正确的时机喂对样本”,可能更重要。
$ u, r1 h- l. t* F- m7 s! V! g Nq8Ee6qTIes3IAnS.jpg
1 ]# f- ?& o8 A( U1 i6 ^6 y$ h! M  w/ X' a$ @
0 [' n) Z6 ]; k& z4 [3 A  j
vkppZV2UR1X11vp3.jpg
+ i! D) p3 ^6 {( r" Y- s
* |( Z- p9 X3 s
5 d, Q3 G! x& M" t4 F; I除了主套件上的提升,论文还专门做了一组更 “刁钻” 的检验:把同一批 GPT-2 XL checkpoint 拿去测 不包含在 Bench-Proxy 构建目标里的 out-of-distribution 基准,包括 BBH、RACE、SuperGLUE 等。结果显示,OPUS 仍然取得最佳平均表现,达到了 40.07,明显高于随机选择以及多种静态和动态筛选基线。这一点非常关键:它说明 OPUS 的收益并不是 “对齐 proxy 就刷 proxy”,也不是把模型过拟合到那一小撮基准上;相反,即使评测换成 proxy 未覆盖的 OOD 任务,OPUS 依然能稳定带来泛化收益,侧面印证了其 “在优化器诱导更新空间里选有效训练信号” 的机制更接近提升真实能力,而非 benchmark 取巧。3 ^& G5 a5 c: P
3)Domain PPL: 验证 “泛化而非刷分”
: K& s1 d: J2 a0 J; f# z" b. v/ ^* y除了任务准确率,论文还用一个更 “底层” 的指标检验模型的广谱语言建模能力:在 Health、Business、Politics、Education、History、Lifestyle、SCIence、Arts & Lit.、Entertainment、Computing 等 10 个不同领域的保留验证集上统计 PPL,越低越好。结果非常稳定:在 FineWeb 上训练 30B tokens 时,OPUS 在 GPT-2 Large 与 GPT-2 XL 两个规模下都拿到最低的平均 PPL—— 分别是 3.35 与 3.26,优于 Random、DSIR、QuRating、GREATS 等基线。更有意思的是,在 FineWeb-Edu 这类 “更高质量” 的子集上,OPUS 仍然保持领先:GPT-2 Large 的平均困惑度降到 3.49,GPT-2 XL 进一步到 3.45。这说明 OPUS 的提升不只体现在某几个 benchmark 上 “刷分”,而是在跨领域的语言建模质量上同样带来一致收益 —— 更接近一种可迁移、可泛化的训练信号增益。- @  E! \% T3 P7 T4 u/ ^0 Y2 |; F
4)Continued Pre-training:Qwen3-8B 在 SciencePedia 上 0.5B token 追平 / 超过 3B token! t& z+ x; U6 N$ ^' @: Y
更贴近产业的 CPT 场景里,OPUS 在 Qwen3-8B-Base 上继续训练 SciencePedia:仅用0.5B tokens就达到最优表现,并且超过随机选择训练 3B tokens 的对照,等价于约 6× 的数据效率增益。对于 “专业域能力提升” 这种高成本任务,这种量级的效率提升极具吸引力。
* b! z! c2 A+ R/ e Xfny0iiWksG5m806.jpg ( c# X1 {  p* F0 K
. V( {$ O- e' Z1 A7 T5 x0 y4 Q: }
$ T( B' Y; D2 G$ D8 ]  q
作者还给出了SciencePedia的分领域拆解结果,把提升拆到 “每个科学子域” 上看清楚:在 0.5B,1B,1.5B 三个 token 预算下,OPUS 在 OlympicArena(图中雷达图,覆盖 Math、Physics、Chemistry、Biology、Geography、Astronomy、CS、Text、以及多语种等维度)与 SciAssess(图中柱状图,Biology/Chemistry/Material/Medicine 等子域)中都表现出更稳定、更加均衡的收益。更关键的是,这种增益并非只靠某一个 “强项领域” 拉动平均分:即使把平均分拆开看,OPUS 在多个子域上都能保持竞争力,尤其在Material 与 Medicine等更偏专业的方向上,优势更明显。总体上,这组分域结果支持了论文的核心论点:OPUS 的改进不是 “挑某个领域刷上去”,而是在有限 token 预算下,把继续预训练的收益更有效地分配到不同科学子域,从而更接近 “用更少 token 覆盖更广能力” 的目标。9 h5 D/ V+ _1 _( H
miX79RRxeJHv6Iwi.jpg
7 n5 v$ v* M( d( t8 m  T- B& e, ~6 l5 m4 |  P% @+ v" H
/ s7 T* h- \! O5 C
从 “挑数据” 到 “挑更新”,OPUS 把预训练的控制权还给了优化器

# X+ [9 i$ n) M很多数据选择方法都卡在一个经典矛盾里:要么原则弱,像经验规则;要么原则强,但算不动。
2 P5 K9 `$ f. x6 LOPUS 的可贵之处在于,它不是只在理论上更 “正确”,也不是只在工程上更 “取巧”,而是把两者真正接到了一起:在原则上,它把样本效用定义到与 AdamW / Muon 等现代优化器一致的有效更新空间中;在工程上,它又通过 Ghost + CountSketch + Boltzmann 软采样,把 “每个 step 在线做数据选择” 的额外开销压到了可落地的范围。
5 ^6 D$ h% a5 Q0 q& s$ c: H更重要的是,OPUS 并不排斥已有的数据工程手段,反而天然适合与静态过滤协同:静态过滤负责把明显低价值样本挡在门外,OPUS 负责在剩余候选中根据训练动态做细粒度选择。 换句话说,它第一次比较完整地把 “数据治理” 与 “训练动力学” 接成了一个闭环。+ ]' E' n* [( d/ k8 p9 f$ Z! R
这也是 OPUS 最值得关注的地方:它真正想回答的,并不是 “如何更聪明地给数据打分”,而是一个更底层的问题 ——在现代优化器主导的训练几何里,什么样的样本,才能带来真实有效的更新?当 “数据墙” 逼近、算力成本高企,预训练已经不再只是 “堆更多数据就能赢” 的游戏,而进入了一个必须精打细算的阶段:每一个 token,都要为更新负责。
# L' Y# @$ x+ ^而 OPUS 给出的路线非常清晰,也很有启发性:
7 F, P; I' z$ c! l* m) J. ]4 j8 ^7 A数据选择不该再做优化器无关的旁观者,而应成为与优化器同几何、同方向的在线控制器。
4 q1 ^, @3 n  D只有这样,我们才有机会真正榨出 token 的边际收益,把预训练从 “数据吞吐战”,推进到 “更新效率战”。( U5 _* u* i/ P) C, B: l
作者介绍:
1 e  _: Y7 o5 h本文第一作者为王少博(上海交大 / 阿里 Qwen)、共同第一作者为欧阳轩(UW-Madison)、徐天一(UW–Madison)。通讯作者包括任星彰(阿里 Qwen)、刘大一恒(阿里 Qwen)与张林峰(上海交大)。其余合作者来自阿里、上交、UIUC、Mila 等单位。
集群智慧云科服专利申请服务
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表