找回密码
 立即注册
查看: 806|回复: 0

上交大与腾讯发布:AI助手复杂任务完成成功率仅14%根源揭示突破 ...

[复制链接]

75

主题

31

回帖

344

积分

中级会员

积分
344
发表于 2026-4-29 16:56:19 | 显示全部楼层 |阅读模式
c5nuNNbFkn5H82hI.jpg
+ G8 O# ~: H# u. a" d. o) N; |; P
这项由上海交通大学联合上海人工智能实验室、腾讯及南洋理工大学共同开展的研究,以预印本形式于2026年4月17日发布在arXiv平台,论文编号为arXiv:2604.15715。研究的核心是构建一套名为GTA-2的分级评测体系,专门用来衡量AI智能体在真实工具使用场景下的能力上限。
+ m! ]( O. x2 D) i3 i9 Z+ J) y6 ^: J$ S- ?
前言:当AI助手遇到真实工作
. q/ D" I) l) d2 N' t$ M每当一个新的AI大模型发布,总有人迫不及待地在演示视频里展示它如何完成复杂任务——搜索信息、处理表格、生成报告,一气呵成。看起来,通用AI助手的时代似乎已经到来。1 c6 m, ^8 z' J( @! c9 o
但现实中,当你真的把一项复杂的工作任务交给AI时,结果往往令人失望。它可能在某个中间步骤卡住,或者生成了一堆文件却没有组织成你需要的格式,又或者最后交出的"报告"根本不符合要求。* }) c+ J+ o' ^+ r
这种落差从哪里来?现有的AI评测标准够不够真实、够不够全面?研究团队认为,问题的根源在于当前的评测体系本身——那些测试AI工具使用能力的"考题",大多是人工编造的、依赖虚假工具的、只在纯文字环境下运行的题目,根本不能反映真实世界里AI助手要面对的复杂状况。
5 X3 P* u$ c! e9 s# ~于是,他们决定自己动手造一套更真实的考场。
4 y5 }6 _. m1 E' }+ M) U一、这套考卷究竟考什么
, ^/ _8 T6 `. n0 b) n6 u- @8 Z要理解这项研究,可以把它想象成一场分为两轮的考试。5 H1 V2 R- K% t! S
第一轮考的是"基本功":给你一张图片,让你识别图中的文字,然后用计算器算出答案,最后把结果标注在图上。这种任务有明确的答案,有清晰的步骤,考的是AI能不能精准调用正确工具、一步一步把问题解决。这一轮叫做GTA-Atomic,直接继承自研究团队此前发布的GTA基准测试,已经在2024年的NeurIPS会议上发表。0 R  K/ a1 H" a0 W' t8 n7 q; H3 R
第二轮考的是"综合实战":给你一份真实的销售数据表格,让你计算各月的关键业绩指标,找出表现最好的产品类别,画出折线图、柱状图和饼图,最后把所有内容打包成一份包含数据分析和改善建议的专业PDF报告。这种任务没有唯一正确的做法,考的是AI能不能从头到尾完成一件真实的生产性工作任务,并且交出一份可以实际使用的"成果物"。这一轮叫做GTA-Workflow,是这次研究最核心的新贡献。
1 ?! d2 V; R6 n4 u' D这两轮考试共同构成了GTA-2分级评测体系,形成了一个从"单个工具操作"到"完整工作流程"的完整评估阶梯。
+ {/ ]6 _- F; U# S2 r二、考题从哪里来:三个"真实"的坚守0 n; J5 Z7 g! R  `/ _$ |1 c/ F4 K
研究团队在设计题目时,反复强调了"真实性"这一原则,并将其拆解为三个层面。
# v% c) Z& j% t* p2 r* t第一个真实,是查询来自真实用户。研究团队不让AI生成题目,而是让人类亲手写出带有实际工具使用需求的问题,或者从Reddit、Stack Exchange等真实社区里收集高质量的用户帖子改编而来。这样的问题不会在字里行间暗示"你需要用搜索工具查一下",而是像现实中用户提问一样,把工具使用的需求藏在任务目标里,需要AI自己推断。
: @2 o; Y/ R. i2 |第二个真实,是工具是真实部署的。评测中使用的每一个工具——无论是图像识别、文档读取还是图表绘制——都是真正可以运行、会产生真实输出的程序,不是用文字模拟的假工具。这意味着AI调用一个错误的工具,就会得到一个真实的错误结果,而不是系统帮它"假装成功"。
+ ]4 Y$ Z$ z' y2 {: I' m9 \第三个真实,是输入包含真实的多模态内容。任务的输入不仅限于文字,还包括截图、手写内容、地图、食谱图片、空间场景等各种真实生活中会遇到的视觉材料。AI必须真正理解这些图像,而不是在纯文字环境下应付了事。
2 c# k1 Q( e: A5 g1 `. m) j这三个"真实"共同构成了一道天然的难度壁垒,把那些只会背答案、走捷径的AI挡在门外。
) O# g( D' F( Q, w4 N; w4 Q三、工作流考场的独特挑战4 _) n5 H- h; M( Z% w
GTA-Workflow的核心难点,在于它根本没有一个"标准答案路径"。  D1 {1 q! S2 A& ^! H/ D- y
在基础工具使用的考试中,研究人员可以预先设定好每一步应该调用什么工具、参数填什么、预期输出是什么,然后对照AI的实际操作打分。但在工作流任务中,完成同一个目标可以有数十种不同的路径。更重要的是,那些先进的AI系统(比如Manus或openclaw)内部有自己的规划机制和记忆管理,外部根本无法观察它们的"内部决策",更谈不上对过程进行逐步评分。
& f! s$ l& ?4 w; \/ Y因此,研究团队专门设计了一套"递归检查点评估机制"来应对这一挑战。" p9 ^' g' x9 w6 C! b- A, }& `
具体做法是这样的:对于每一个工作流任务,研究人员不去规定AI应该怎么做,而是把最终成果物应该满足的条件分解成一棵"目标树"。这棵树的根节点是整体任务目标,往下分出若干子任务节点,每个子任务节点再往下分出更细化的"叶节点"——也就是最具体、可以直接核查的子目标。
4 m& ]1 N7 p5 ~1 ?! \% O( N举个例子,在销售数据分析报告任务中,整棵目标树可能是这样的结构:根节点是"完成完整的数据分析报告";它分出两个子节点,一个是"数据解析与指标计算",另一个是"图表绘制与PDF生成";在"数据解析"这个子节点下面,又有"正确计算月度增长率"和"正确计算客单价"等叶节点;在"图表绘制"下面,有"折线图正确反映趋势"、"柱状图包含各类目数据"和"饼图比例准确"等叶节点。! e0 \* Z4 y1 z+ Z( Z( Q( G* k* X# }
每一个叶节点都对应一个可以由AI评判模型客观打分的具体要求,分值从0到10。非叶节点的得分则是其子节点的加权平均值,权重由重要程度决定,最后层层聚合到根节点,得出整个任务的总分。这种设计的妙处在于,它既给出了总体完成度的概览(根节点分数),又保留了每个具体子目标的细粒度信息,可以用来分析AI在哪个环节出了问题。1 _% K' ]' E2 r! V
四、题库是怎么做出来的1 K6 Q$ i" k. G7 v
GTA-Workflow的132道题经历了一套严格的"炼制"流程,绝不是随手从网上抄几个问题就了事。! L6 O; d9 h0 c; ]+ z2 ?4 ~
原始素材来自两个渠道。一是直接收集Manus、Kortix、Flowith、Minimax Agent和CrewAI等AI智能体平台上的真实任务案例,确保题目与当前AI系统的实际应用场景对齐。二是从Reddit和Stack Exchange上筛选高互动度的用户提问,把真实用户的需求转化为评测题目。原始收集到的154道题,最终保留了132道。
2 }+ R. W; d+ b3 C但这些原始题目并不能直接用。研究团队让AI模型对每道题进行分类:该删的删,因为题目要么太依赖深度视觉理解而超出工具能力范围,要么根本无法用给定工具集解决;该精炼的精炼,把模糊的要求变清晰,把缺失的输出格式补上;该扩充的扩充,把过于简单、工具使用不够丰富的题目扩展成真正的多步骤工作流。只有极少数本身质量足够高的题目可以直接通过。' Y; Q: _, D/ N  C# x
从数字来看,67道题经过了扩充处理,62道经过了精炼处理,只有3道题直接通过。这说明现实中收集来的原始素材往往不适合直接当作评测题目,必须经过大量改造才能达到标准。精炼操作平均给每道题增加了4.45个约束条件,成果物要求的描述字数平均增加了14倍;扩充操作平均新增了3.48个工具,成果物要求增加了将近5倍。
1 f0 n. |9 z' _, Z6 V/ ]& w改造完成后,还需要经过自动验证和人工审核两道关卡。自动验证负责检查三条硬性规定:检查点必须描述结果状态而非操作动作,评分标准不能提及具体工具调用,任务描述里不能出现预设的执行步骤。凡是违反这些规定的题目,就要退回重写,直到符合要求为止。最后,人工标注员逐题核查任务的清晰度、可行性和真实性,并对使用频率偏低的工具进行专项补充,保证题库的工具覆盖均衡。$ X0 f! ?8 }+ O6 c/ h% n/ ?, v
五、考场配置:工具、模态与评分规则
$ G' s, ^8 H8 gGTA-Workflow支持的输入类型比基础测试丰富得多,涵盖图片、Word文档、Excel表格、PowerPoint演示文稿、PDF文件、音频和视频,接近真实办公场景下会遇到的各种文件类型。( @9 e( M- J- \0 A' B  f+ ?
工具数量从基础测试的14个扩展到37个,新增了大量与实际工作相关的能力,包括读写Word、Excel、PDF、PPT文件的系列工具,音频处理工具(截取片段、降噪、音调变换),视频处理工具(截取片段、添加文字注释、目标检测),以及语音转文字、HTML文件生成等。工具类别仍然维持感知、操作、逻辑和创作四大类不变。
& J# r  T/ x8 T' m! }) F0 `. a输出成果物同样更加多样,涵盖纯文本、图片、音频、视频、代码、Word文档、PDF、HTML页面、CSV数据文件、Excel表格、PPT演示文稿、JSON数据文件和Markdown文档等十余种格式,覆盖了真实工作产出的大部分常见形态。
! r8 b4 x9 ]- I5 l" n6 h评分方面,研究团队使用GPT-5.2作为AI评判模型,对每个叶节点进行0到10分的打分,并要求给出评分理由。任务总分通过递归加权聚合计算得出,当根节点分数超过7分时,判定为任务完成。为了验证这套评分机制的可靠性,研究团队专门找了两名人类标注员对30道题的276个叶节点进行独立评分,然后与AI评判模型的分数做对比。结果显示,AI评判模型与人类平均分的皮尔逊相关系数达到0.966,任务级别的组内相关系数为0.928,平均绝对误差仅0.74分,与两个人类标注员之间的一致性(皮尔逊相关系数0.965)基本持平。换句话说,AI裁判的公正程度已经接近人类裁判。
' u# G; L! E- k  ^六、各大AI模型的实际表现0 W3 X" [: `6 l' y# I  g
当研究团队把这套考卷递到当今最顶尖的AI模型面前,结果令人瞠目。8 _* T/ A" i- l* E) ], g
先看基础工具使用的考试。表现最好的GPT-4和GPT-4o,正确完成任务的比例不超过50%。其他闭源模型大多在25%以下,开源模型则更低,Mixtral-8x7B只有约10%,Llama-3-8B只有约3%。即便是在"给出前几步的情况下预测下一步"这种相对容易的步进测试中,GPT-4o的工具选择准确率也只有70%,参数填写准确率更是只有35%。这说明,哪怕是最基础的多步骤工具调用任务,对当前AI来说都远比看起来难。
( D, q5 F7 ~( c; r再看工作流任务的考试。在13个被测模型中,表现最好的Gemini-2.5-Pro,完整完成任务的成功率仅为14.39%。GPT-5为11.36%,Grok-4为9.85%,Claude-Sonnet-4.5为9.09%。开源模型中,Qwen3-235B-A22B和Llama-4-Scout都达到了10.61%,与顶级闭源模型差距不大。但规模较小的模型表现则是断崖式下滑:Llama-3.1-70B成功率不足1%,Qwen3-8B和Llama-3.1-8B-Instruct则彻底为零——没有完成任何一道题。
0 {2 ?! L1 m8 Y+ c6 }& v) R) J特别耐人寻味的是,Kimi-K2的工具调用成功率高达89.85%,工具本身调用起来几乎没有问题,但最终任务完成率却只有8.33%。这个数字清楚地说明,能正确调用工具,和能用工具完成一件真实的工作,是两件完全不同的事情。" W/ S  o, k2 x. S: Q8 l( ]
七、失败图鉴:哪里出了问题% G" f6 R2 G7 a# L
研究团队不满足于知道AI失败了,更想知道AI在哪个环节失败的。为此,他们对每一个失败的检查点打上了阶段标签,分析错误的分布。' F# s& Y9 g" H: C' B& t, U  x
最常见的失败发生在执行阶段,也就是AI在实际调用工具、与文件交互的过程中出了问题。Gemini-2.5-Pro有33.7%的失败属于执行阶段错误,Claude-Sonnet-4.5有34.0%。这说明,维持长达数十步的工具交互链条而不出错,是一件极其困难的事情。5 o" t" P8 Q/ u1 Y
第二大失败原因是最终成果物没有正确落地,包括文件格式不对、文件没有正确导出、成果物结构不符合要求等。这类失败在较弱的模型中尤为突出,Qwen3-8B有24.7%的失败属于此类。这意味着,即便AI做完了大部分中间步骤,最后一哩路却经常走不通。
4 e( G7 A! Q$ N' c! s$ B相比之下,推理错误——也就是AI在逻辑思考上出了问题——反而只占很小的比例,各模型均在7%以内。这说明,当前AI模型并不缺乏局部推理能力,缺的是把局部推理串联成完整任务执行的系统性能力。4 d7 Q) U1 r' y; y" ]% y* A
研究团队还把失败细分为三个层级:叶节点层面的局部子目标失败(A级)、组合层面的中间整合失败(B级)和最终成果物层面的落地失败(C级)。在使用默认Lagent框架的情况下,Gemini-2.5-Pro的C级失败率高达77.78%,Claude-Sonnet-4.5更高达80.56%。也就是说,即便是最顶尖的AI,一旦用标准框架运行,有超过八成的时间根本交不出一份合格的最终成果物。B级失败率也高达70%左右,说明中间各部分的整合工作同样是个大难题。. b* P7 }  V" A
八、框架的力量:换一个"运行环境",成功率翻几番' _6 f- i$ o/ S$ b8 k- W
最令研究团队兴奋的发现之一,来自不同AI执行框架之间的对比实验。
) }7 c5 J8 ?! b+ m; h' [& g$ H研究团队用完全相同的底层AI模型(Claude-Sonnet-4.5),分别在两个不同的执行框架下完成30道工作流任务:一个是研究中默认使用的Lagent框架,一个是更先进的OpenClaw框架。2 I/ U1 E. c  h8 i9 u+ _0 Z4 H. X& Q
结果差距惊人。Lagent框架下,根节点平均得分只有2.49分,任务完成率为0%——30道题一道都没完成。切换到OpenClaw框架后,相同的AI模型根节点平均分跳升至6.82分,任务完成率达到50%,叶节点通过率从10.14%飙升至73.55%。9 Q, h% |0 D% y" t! O' L
同样的AI模型,就像同一个人,换了一套更完善的工作流程和工具支持体系,成功率从零变成了一半。: ^& n3 w' l9 ?
研究团队还测试了Manus和Kortix这两个不对外公开底层模型的商业AI智能体平台。Manus的任务完成率为53.3%,根节点平均得分6.94;Kortix的完成率同样为53.3%,平均得分6.83。这两个商业系统的表现与OpenClaw相当,都远超单独使用顶级大模型的结果。
8 Y. [! e8 W+ ?, w1 i6 v8 Z1 E从效率角度看,三个先进框架各有侧重。Manus的成本效率最高,每花1美元获得的根节点得分达到0.463;OpenClaw成本最高(每30道题花费35美元),但绝对性能最强;Kortix则提供了介于两者之间的均衡选择。
# d+ c& M5 M3 \# z这组对比实验最直接的启示是:在工作流场景下,AI模型的能力固然重要,但执行框架的设计质量同样关键,甚至可能更重要。一个设计糟糕的框架,能让顶尖AI模型一败涂地;一个设计出色的框架,能把同样的AI模型带到全然不同的高度。( Y$ W# j( |3 q
九、难度解剖:哪类任务最难啃* n6 }! b: m/ h. L# L- Z' X
研究团队从任务复杂度、成果物类型和任务领域三个维度,深入分析了难度分布。
+ b! e. `% w# K9 Z' T  @从复杂度角度看,GTA-2按照叶节点数量把工作流分为简单(3至7个叶节点)、中等(8至12个)和复杂(13至19个)三档。几乎所有模型都呈现出相同的规律:随着叶节点数量增加,叶节点通过率稳步下降。GPT-5在简单任务上能达到约22%的叶节点通过率,但在复杂任务上降至约13%。唯一的例外是Gemini-2.5-Pro,它在中等难度任务上成绩有所下滑,但在复杂任务上反而回升到约24%,表现出一定的长程稳健性。) m( P6 x. {. @0 B% W" R; \
从成果物类型角度看,所有模型在生成纯文本类成果(PDF文档、纯文本、HTML页面)时表现最好,平均根节点得分在3.7至4.3分之间。多媒体类成果(图片、音频、视频)居中,平均约3.48分。最难搞定的是结构化数据文件(CSV、Excel、JSON)和PPT演示文稿,平均分分别只有2.62和2.79。GPT-5在PPT生成上得了3.12分,但Claude-Sonnet-4.5只有2.14分,两者相差近1分,说明不同模型在高精度数据处理上存在明显差异。
( z0 B+ i: `8 L' d' _从任务领域角度看,六个任务类别(数据分析、教育与教学、规划与决策、创意设计、营销策略、检索与问答)中,没有任何一个模型在所有类别上都最强。Gemini-2.5-Pro在检索与问答上领先,Claude-Sonnet-4.5在创意设计上略胜一筹,说明不同模型有各自的专长区域。整体而言,需要精确数据操作或动态信息整合的任务(数据分析、营销策略)最具挑战性,而有稳定知识基础支撑的任务(教育、知识问答)相对容易。
5 v2 s/ a" P5 a& E十、反馈的价值:检查点也可以帮AI改进- r8 D' H/ q# d$ ?. I. ^
研究团队还探索了一种有趣的应用:把评估框架反过来当作改进工具用。
$ ]1 ^2 {/ i3 \# v2 l6 Q% w7 g实验过程是这样的:让GPT-5先生成一份工作流任务的成果物,然后由AI评判模型用检查点树进行评分。接着让GPT-5看到反馈,再做一次。研究团队对比了两种反馈方式:一种是"粗粒度反馈",只告诉AI"结果不对";另一种是"检查点反馈",返回每个子目标的具体失败诊断。& s4 n; t' X& l
结果颇为说明问题。没有反馈时,平均根节点得分为2.83。加入粗粒度反馈后,得分小幅提升至2.93,相对提升4.05%。加入检查点反馈后,得分上升至3.15,相对提升12.03%。检查点反馈比粗粒度反馈的效果高出将近三倍。* K5 v" B5 ]$ X& F
这说明,越细化的错误诊断,就越能帮助AI找到正确的改进方向。这也提示了一个颇具价值的应用方向:把检查点评估机制嵌入AI的训练或迭代优化流程,让AI在每次尝试后获得结构化的诊断反馈,可能是提升工作流完成能力的有效路径。
1 f4 y! p. C& m: n6 n% O+ O9 k十一、评估本身是否可信, @- |  D4 r$ _1 v% v
任何评估体系都需要接受关于自身可靠性的质疑,GTA-2也不例外。研究团队专门设计了多项验证实验。
  W% y9 A& q+ B, y8 E+ T4 ]关于评分阈值的选取,研究团队测试了从5到9的五个不同成功判定阈值,观察各阈值下模型排名和分值分布的变化。结果发现,阈值过低(5分)时,大多数模型都"及格",分辨不出好坏;阈值过高(9分)时,几乎所有模型都归零,同样失去区分能力。7分是在严格性和区分度之间平衡最好的点,因此被选为默认阈值。
, p2 s: W4 \) i1 W6 |1 F' e关于AI评判模型的可靠性,除了前面提到的人类一致性测试,研究团队还测试了换用Gemini-2.5-Flash作为裁判时的结果变化。虽然Gemini-2.5-Flash给出的分数整体偏高,但四个模型的相对排名与使用GPT-5.2时完全一致,斯皮尔曼相关系数和肯德尔相关系数均为完美的1.0。这说明具体用哪个AI模型做裁判影响不大,排名结论是稳健的。, j+ |1 W5 ~8 E3 J4 V1 s, Z- L0 C4 l
关于跨模型公平性,研究团队分别从GPT-5输出、Gemini-2.5-Pro输出、OpenClaw输出和Qwen3-30B-A3B输出各取30道题,让AI评判模型与人类评分对比。对所有来源,皮尔逊相关系数均高于0.92,组内相关系数均高于0.85,说明AI裁判不会因为成果物来源不同而产生系统性偏差。
9 T# L3 D7 p$ D4 x0 J4 k# }0 l说到底,这项研究传达的信息相当明确:当前的AI助手,在真实工作场景下的表现,比我们通常以为的要差得多。
; `$ c* P: q4 k' [! O: m3 N% S最顶尖的AI模型,在连续调用十几个工具、处理各种文件格式、最终生成一份结构完整的可用成果物这样的任务上,成功率只有百分之十几。失败的原因不在于推理逻辑,而在于执行过程的稳定性和最终成果物的落地质量。而换一个更完善的执行框架,哪怕底层AI模型没有变,成功率就能从零跃升到一半以上——这说明我们现在面对的,与其说是AI能力的天花板,不如说是AI系统工程设计的瓶颈。
) M, ^' G2 S3 p  ]% _! L, U9 w4 X; h这对普通用户意味着什么?如果你现在用某个AI助手来完成复杂工作任务,它完不成的大概率不是因为"笨",而是因为它背后的运行框架设计得不够完善。未来更好用的AI助手,可能不只是靠训练更强的大模型来实现,更需要在系统架构层面下功夫。) R; Z$ f0 J4 q1 O( v. k2 K
这也引出了一个值得继续追问的问题:当AI执行框架的设计越来越像一个"工作流操作系统"时,评估这套系统的能力,和评估底层AI模型本身,会不会最终成为同等重要的事情?GTA-2给出了一个初步的答案框架,但更深入的探索显然还在路上。有兴趣深入了解的读者,可以通过arXiv编号2604.15715查阅完整论文,代码和数据集也将在GitHub的open-compass/GTA仓库开放。
8 a) C4 k$ q1 [2 UQ&A
8 Y2 @8 N; D& Y- S; ^Q1:GTA-Workflow的检查点评估机制是怎么运作的?
! ~9 o8 D5 a& ~% h2 D' Y. G. G# W* kA:GTA-Workflow把每个任务的目标分解成一棵"目标树",树的最底层叶节点是具体可核查的子目标,比如"折线图是否正确反映趋势"。AI评判模型对每个叶节点打0到10分,再按权重层层加权聚合到根节点,得出整个任务的总分。根节点得分超过7分即视为任务完成。这种机制既给出总体完成度,也保留了细粒度的子目标诊断信息。2 m/ c. ^: g+ S
Q2:GTA-Workflow测出来顶级AI成功率只有14%,是因为题目太难了吗?
: V2 q& M' {& @5 e7 A9 zA:难度确实比常规评测高,但"难"的来源是真实性而非刻意刁难。任务来自真实用户需求,使用真实可运行的工具,要求生成真实可用的成果物。在这个标准下,顶级AI成功率低的核心原因不是推理能力不足,而是在长达数十步的工具交互链条中难以保持稳定性,以及最终成果物的格式和结构经常不符合要求。. q8 [6 c9 r( H
Q3:OpenClaw和Manus这些框架为什么能大幅提升AI的工作流完成率?
& h, ?; E) h  G9 }% j2 h0 b# y# }9 U  rA:这些先进执行框架提供了更完善的系统级支持,包括动态规划能力(可以根据中间结果调整后续步骤)、持久化记忆管理(能记住任务各阶段的状态和中间结果)以及更稳健的多步骤工具协调机制。相比之下,基础框架(如Lagent)主要依赖AI模型自身的单次规划能力,遇到执行失败或状态丢失时缺乏恢复机制,导致任务中途崩溃的概率大幅升高。框架的差异,本质上是"工作流操作系统"设计水平的差异。
集群智慧云科服专利申请服务
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


快速回复 返回顶部 返回列表