上交大与腾讯发布：AI助手复杂任务完成成功率仅14%根源揭示突破 ...

love旧人已逝 · 发表于 2026-4-29 16:56:19

这项由上海交通大学联合上海人工智能实验室、腾讯及南洋理工大学共同开展的研究，以预印本形式于2026年4月17日发布在arXiv平台，论文编号为arXiv:2604.15715。研究的核心是构建一套名为GTA-2的分级评测体系，专门用来衡量AI智能体在真实工具使用场景下的能力上限。

前言：当AI助手遇到真实工作
每当一个新的AI大模型发布，总有人迫不及待地在演示视频里展示它如何完成复杂任务——搜索信息、处理表格、生成报告，一气呵成。看起来，通用AI助手的时代似乎已经到来。
但现实中，当你真的把一项复杂的工作任务交给AI时，结果往往令人失望。它可能在某个中间步骤卡住，或者生成了一堆文件却没有组织成你需要的格式，又或者最后交出的"报告"根本不符合要求。
这种落差从哪里来？现有的AI评测标准够不够真实、够不够全面？研究团队认为，问题的根源在于当前的评测体系本身——那些测试AI工具使用能力的"考题"，大多是人工编造的、依赖虚假工具的、只在纯文字环境下运行的题目，根本不能反映真实世界里AI助手要面对的复杂状况。
于是，他们决定自己动手造一套更真实的考场。
一、这套考卷究竟考什么
要理解这项研究，可以把它想象成一场分为两轮的考试。
第一轮考的是"基本功"：给你一张图片，让你识别图中的文字，然后用计算器算出答案，最后把结果标注在图上。这种任务有明确的答案，有清晰的步骤，考的是AI能不能精准调用正确工具、一步一步把问题解决。这一轮叫做GTA-Atomic，直接继承自研究团队此前发布的GTA基准测试，已经在2024年的NeurIPS会议上发表。
第二轮考的是"综合实战"：给你一份真实的销售数据表格，让你计算各月的关键业绩指标，找出表现最好的产品类别，画出折线图、柱状图和饼图，最后把所有内容打包成一份包含数据分析和改善建议的专业PDF报告。这种任务没有唯一正确的做法，考的是AI能不能从头到尾完成一件真实的生产性工作任务，并且交出一份可以实际使用的"成果物"。这一轮叫做GTA-Workflow，是这次研究最核心的新贡献。
这两轮考试共同构成了GTA-2分级评测体系，形成了一个从"单个工具操作"到"完整工作流程"的完整评估阶梯。
二、考题从哪里来：三个"真实"的坚守
研究团队在设计题目时，反复强调了"真实性"这一原则，并将其拆解为三个层面。
第一个真实，是查询来自真实用户。研究团队不让AI生成题目，而是让人类亲手写出带有实际工具使用需求的问题，或者从Reddit、Stack Exchange等真实社区里收集高质量的用户帖子改编而来。这样的问题不会在字里行间暗示"你需要用搜索工具查一下"，而是像现实中用户提问一样，把工具使用的需求藏在任务目标里，需要AI自己推断。
第二个真实，是工具是真实部署的。评测中使用的每一个工具——无论是图像识别、文档读取还是图表绘制——都是真正可以运行、会产生真实输出的程序，不是用文字模拟的假工具。这意味着AI调用一个错误的工具，就会得到一个真实的错误结果，而不是系统帮它"假装成功"。
第三个真实，是输入包含真实的多模态内容。任务的输入不仅限于文字，还包括截图、手写内容、地图、食谱图片、空间场景等各种真实生活中会遇到的视觉材料。AI必须真正理解这些图像，而不是在纯文字环境下应付了事。
这三个"真实"共同构成了一道天然的难度壁垒，把那些只会背答案、走捷径的AI挡在门外。
三、工作流考场的独特挑战
GTA-Workflow的核心难点，在于它根本没有一个"标准答案路径"。
在基础工具使用的考试中，研究人员可以预先设定好每一步应该调用什么工具、参数填什么、预期输出是什么，然后对照AI的实际操作打分。但在工作流任务中，完成同一个目标可以有数十种不同的路径。更重要的是，那些先进的AI系统（比如Manus或openclaw）内部有自己的规划机制和记忆管理，外部根本无法观察它们的"内部决策"，更谈不上对过程进行逐步评分。
因此，研究团队专门设计了一套"递归检查点评估机制"来应对这一挑战。
具体做法是这样的：对于每一个工作流任务，研究人员不去规定AI应该怎么做，而是把最终成果物应该满足的条件分解成一棵"目标树"。这棵树的根节点是整体任务目标，往下分出若干子任务节点，每个子任务节点再往下分出更细化的"叶节点"——也就是最具体、可以直接核查的子目标。
举个例子，在销售数据分析报告任务中，整棵目标树可能是这样的结构：根节点是"完成完整的数据分析报告"；它分出两个子节点，一个是"数据解析与指标计算"，另一个是"图表绘制与PDF生成"；在"数据解析"这个子节点下面，又有"正确计算月度增长率"和"正确计算客单价"等叶节点；在"图表绘制"下面，有"折线图正确反映趋势"、"柱状图包含各类目数据"和"饼图比例准确"等叶节点。
每一个叶节点都对应一个可以由AI评判模型客观打分的具体要求，分值从0到10。非叶节点的得分则是其子节点的加权平均值，权重由重要程度决定，最后层层聚合到根节点，得出整个任务的总分。这种设计的妙处在于，它既给出了总体完成度的概览（根节点分数），又保留了每个具体子目标的细粒度信息，可以用来分析AI在哪个环节出了问题。
四、题库是怎么做出来的
GTA-Workflow的132道题经历了一套严格的"炼制"流程，绝不是随手从网上抄几个问题就了事。
原始素材来自两个渠道。一是直接收集Manus、Kortix、Flowith、Minimax Agent和CrewAI等AI智能体平台上的真实任务案例，确保题目与当前AI系统的实际应用场景对齐。二是从Reddit和Stack Exchange上筛选高互动度的用户提问，把真实用户的需求转化为评测题目。原始收集到的154道题，最终保留了132道。
但这些原始题目并不能直接用。研究团队让AI模型对每道题进行分类：该删的删，因为题目要么太依赖深度视觉理解而超出工具能力范围，要么根本无法用给定工具集解决；该精炼的精炼，把模糊的要求变清晰，把缺失的输出格式补上；该扩充的扩充，把过于简单、工具使用不够丰富的题目扩展成真正的多步骤工作流。只有极少数本身质量足够高的题目可以直接通过。
从数字来看，67道题经过了扩充处理，62道经过了精炼处理，只有3道题直接通过。这说明现实中收集来的原始素材往往不适合直接当作评测题目，必须经过大量改造才能达到标准。精炼操作平均给每道题增加了4.45个约束条件，成果物要求的描述字数平均增加了14倍；扩充操作平均新增了3.48个工具，成果物要求增加了将近5倍。
改造完成后，还需要经过自动验证和人工审核两道关卡。自动验证负责检查三条硬性规定：检查点必须描述结果状态而非操作动作，评分标准不能提及具体工具调用，任务描述里不能出现预设的执行步骤。凡是违反这些规定的题目，就要退回重写，直到符合要求为止。最后，人工标注员逐题核查任务的清晰度、可行性和真实性，并对使用频率偏低的工具进行专项补充，保证题库的工具覆盖均衡。
五、考场配置：工具、模态与评分规则
GTA-Workflow支持的输入类型比基础测试丰富得多，涵盖图片、Word文档、Excel表格、PowerPoint演示文稿、PDF文件、音频和视频，接近真实办公场景下会遇到的各种文件类型。
工具数量从基础测试的14个扩展到37个，新增了大量与实际工作相关的能力，包括读写Word、Excel、PDF、PPT文件的系列工具，音频处理工具（截取片段、降噪、音调变换），视频处理工具（截取片段、添加文字注释、目标检测），以及语音转文字、HTML文件生成等。工具类别仍然维持感知、操作、逻辑和创作四大类不变。
输出成果物同样更加多样，涵盖纯文本、图片、音频、视频、代码、Word文档、PDF、HTML页面、CSV数据文件、Excel表格、PPT演示文稿、JSON数据文件和Markdown文档等十余种格式，覆盖了真实工作产出的大部分常见形态。
评分方面，研究团队使用GPT-5.2作为AI评判模型，对每个叶节点进行0到10分的打分，并要求给出评分理由。任务总分通过递归加权聚合计算得出，当根节点分数超过7分时，判定为任务完成。为了验证这套评分机制的可靠性，研究团队专门找了两名人类标注员对30道题的276个叶节点进行独立评分，然后与AI评判模型的分数做对比。结果显示，AI评判模型与人类平均分的皮尔逊相关系数达到0.966，任务级别的组内相关系数为0.928，平均绝对误差仅0.74分，与两个人类标注员之间的一致性（皮尔逊相关系数0.965）基本持平。换句话说，AI裁判的公正程度已经接近人类裁判。
六、各大AI模型的实际表现
当研究团队把这套考卷递到当今最顶尖的AI模型面前，结果令人瞠目。
先看基础工具使用的考试。表现最好的GPT-4和GPT-4o，正确完成任务的比例不超过50%。其他闭源模型大多在25%以下，开源模型则更低，Mixtral-8x7B只有约10%，Llama-3-8B只有约3%。即便是在"给出前几步的情况下预测下一步"这种相对容易的步进测试中，GPT-4o的工具选择准确率也只有70%，参数填写准确率更是只有35%。这说明，哪怕是最基础的多步骤工具调用任务，对当前AI来说都远比看起来难。
再看工作流任务的考试。在13个被测模型中，表现最好的Gemini-2.5-Pro，完整完成任务的成功率仅为14.39%。GPT-5为11.36%，Grok-4为9.85%，Claude-Sonnet-4.5为9.09%。开源模型中，Qwen3-235B-A22B和Llama-4-Scout都达到了10.61%，与顶级闭源模型差距不大。但规模较小的模型表现则是断崖式下滑：Llama-3.1-70B成功率不足1%，Qwen3-8B和Llama-3.1-8B-Instruct则彻底为零——没有完成任何一道题。
特别耐人寻味的是，Kimi-K2的工具调用成功率高达89.85%，工具本身调用起来几乎没有问题，但最终任务完成率却只有8.33%。这个数字清楚地说明，能正确调用工具，和能用工具完成一件真实的工作，是两件完全不同的事情。
七、失败图鉴：哪里出了问题
研究团队不满足于知道AI失败了，更想知道AI在哪个环节失败的。为此，他们对每一个失败的检查点打上了阶段标签，分析错误的分布。
最常见的失败发生在执行阶段，也就是AI在实际调用工具、与文件交互的过程中出了问题。Gemini-2.5-Pro有33.7%的失败属于执行阶段错误，Claude-Sonnet-4.5有34.0%。这说明，维持长达数十步的工具交互链条而不出错，是一件极其困难的事情。
第二大失败原因是最终成果物没有正确落地，包括文件格式不对、文件没有正确导出、成果物结构不符合要求等。这类失败在较弱的模型中尤为突出，Qwen3-8B有24.7%的失败属于此类。这意味着，即便AI做完了大部分中间步骤，最后一哩路却经常走不通。
相比之下，推理错误——也就是AI在逻辑思考上出了问题——反而只占很小的比例，各模型均在7%以内。这说明，当前AI模型并不缺乏局部推理能力，缺的是把局部推理串联成完整任务执行的系统性能力。
研究团队还把失败细分为三个层级：叶节点层面的局部子目标失败（A级）、组合层面的中间整合失败（B级）和最终成果物层面的落地失败（C级）。在使用默认Lagent框架的情况下，Gemini-2.5-Pro的C级失败率高达77.78%，Claude-Sonnet-4.5更高达80.56%。也就是说，即便是最顶尖的AI，一旦用标准框架运行，有超过八成的时间根本交不出一份合格的最终成果物。B级失败率也高达70%左右，说明中间各部分的整合工作同样是个大难题。
八、框架的力量：换一个"运行环境"，成功率翻几番
最令研究团队兴奋的发现之一，来自不同AI执行框架之间的对比实验。
研究团队用完全相同的底层AI模型（Claude-Sonnet-4.5），分别在两个不同的执行框架下完成30道工作流任务：一个是研究中默认使用的Lagent框架，一个是更先进的OpenClaw框架。
结果差距惊人。Lagent框架下，根节点平均得分只有2.49分，任务完成率为0%——30道题一道都没完成。切换到OpenClaw框架后，相同的AI模型根节点平均分跳升至6.82分，任务完成率达到50%，叶节点通过率从10.14%飙升至73.55%。
同样的AI模型，就像同一个人，换了一套更完善的工作流程和工具支持体系，成功率从零变成了一半。
研究团队还测试了Manus和Kortix这两个不对外公开底层模型的商业AI智能体平台。Manus的任务完成率为53.3%，根节点平均得分6.94；Kortix的完成率同样为53.3%，平均得分6.83。这两个商业系统的表现与OpenClaw相当，都远超单独使用顶级大模型的结果。
从效率角度看，三个先进框架各有侧重。Manus的成本效率最高，每花1美元获得的根节点得分达到0.463；OpenClaw成本最高（每30道题花费35美元），但绝对性能最强；Kortix则提供了介于两者之间的均衡选择。
这组对比实验最直接的启示是：在工作流场景下，AI模型的能力固然重要，但执行框架的设计质量同样关键，甚至可能更重要。一个设计糟糕的框架，能让顶尖AI模型一败涂地；一个设计出色的框架，能把同样的AI模型带到全然不同的高度。
九、难度解剖：哪类任务最难啃
研究团队从任务复杂度、成果物类型和任务领域三个维度，深入分析了难度分布。
从复杂度角度看，GTA-2按照叶节点数量把工作流分为简单（3至7个叶节点）、中等（8至12个）和复杂（13至19个）三档。几乎所有模型都呈现出相同的规律：随着叶节点数量增加，叶节点通过率稳步下降。GPT-5在简单任务上能达到约22%的叶节点通过率，但在复杂任务上降至约13%。唯一的例外是Gemini-2.5-Pro，它在中等难度任务上成绩有所下滑，但在复杂任务上反而回升到约24%，表现出一定的长程稳健性。
从成果物类型角度看，所有模型在生成纯文本类成果（PDF文档、纯文本、HTML页面）时表现最好，平均根节点得分在3.7至4.3分之间。多媒体类成果（图片、音频、视频）居中，平均约3.48分。最难搞定的是结构化数据文件（CSV、Excel、JSON）和PPT演示文稿，平均分分别只有2.62和2.79。GPT-5在PPT生成上得了3.12分，但Claude-Sonnet-4.5只有2.14分，两者相差近1分，说明不同模型在高精度数据处理上存在明显差异。
从任务领域角度看，六个任务类别（数据分析、教育与教学、规划与决策、创意设计、营销策略、检索与问答）中，没有任何一个模型在所有类别上都最强。Gemini-2.5-Pro在检索与问答上领先，Claude-Sonnet-4.5在创意设计上略胜一筹，说明不同模型有各自的专长区域。整体而言，需要精确数据操作或动态信息整合的任务（数据分析、营销策略）最具挑战性，而有稳定知识基础支撑的任务（教育、知识问答）相对容易。
十、反馈的价值：检查点也可以帮AI改进
研究团队还探索了一种有趣的应用：把评估框架反过来当作改进工具用。
实验过程是这样的：让GPT-5先生成一份工作流任务的成果物，然后由AI评判模型用检查点树进行评分。接着让GPT-5看到反馈，再做一次。研究团队对比了两种反馈方式：一种是"粗粒度反馈"，只告诉AI"结果不对"；另一种是"检查点反馈"，返回每个子目标的具体失败诊断。
结果颇为说明问题。没有反馈时，平均根节点得分为2.83。加入粗粒度反馈后，得分小幅提升至2.93，相对提升4.05%。加入检查点反馈后，得分上升至3.15，相对提升12.03%。检查点反馈比粗粒度反馈的效果高出将近三倍。
这说明，越细化的错误诊断，就越能帮助AI找到正确的改进方向。这也提示了一个颇具价值的应用方向：把检查点评估机制嵌入AI的训练或迭代优化流程，让AI在每次尝试后获得结构化的诊断反馈，可能是提升工作流完成能力的有效路径。
十一、评估本身是否可信
任何评估体系都需要接受关于自身可靠性的质疑，GTA-2也不例外。研究团队专门设计了多项验证实验。
关于评分阈值的选取，研究团队测试了从5到9的五个不同成功判定阈值，观察各阈值下模型排名和分值分布的变化。结果发现，阈值过低（5分）时，大多数模型都"及格"，分辨不出好坏；阈值过高（9分）时，几乎所有模型都归零，同样失去区分能力。7分是在严格性和区分度之间平衡最好的点，因此被选为默认阈值。
关于AI评判模型的可靠性，除了前面提到的人类一致性测试，研究团队还测试了换用Gemini-2.5-Flash作为裁判时的结果变化。虽然Gemini-2.5-Flash给出的分数整体偏高，但四个模型的相对排名与使用GPT-5.2时完全一致，斯皮尔曼相关系数和肯德尔相关系数均为完美的1.0。这说明具体用哪个AI模型做裁判影响不大，排名结论是稳健的。
关于跨模型公平性，研究团队分别从GPT-5输出、Gemini-2.5-Pro输出、OpenClaw输出和Qwen3-30B-A3B输出各取30道题，让AI评判模型与人类评分对比。对所有来源，皮尔逊相关系数均高于0.92，组内相关系数均高于0.85，说明AI裁判不会因为成果物来源不同而产生系统性偏差。
说到底，这项研究传达的信息相当明确：当前的AI助手，在真实工作场景下的表现，比我们通常以为的要差得多。
最顶尖的AI模型，在连续调用十几个工具、处理各种文件格式、最终生成一份结构完整的可用成果物这样的任务上，成功率只有百分之十几。失败的原因不在于推理逻辑，而在于执行过程的稳定性和最终成果物的落地质量。而换一个更完善的执行框架，哪怕底层AI模型没有变，成功率就能从零跃升到一半以上——这说明我们现在面对的，与其说是AI能力的天花板，不如说是AI系统工程设计的瓶颈。
这对普通用户意味着什么？如果你现在用某个AI助手来完成复杂工作任务，它完不成的大概率不是因为"笨"，而是因为它背后的运行框架设计得不够完善。未来更好用的AI助手，可能不只是靠训练更强的大模型来实现，更需要在系统架构层面下功夫。
这也引出了一个值得继续追问的问题：当AI执行框架的设计越来越像一个"工作流操作系统"时，评估这套系统的能力，和评估底层AI模型本身，会不会最终成为同等重要的事情？GTA-2给出了一个初步的答案框架，但更深入的探索显然还在路上。有兴趣深入了解的读者，可以通过arXiv编号2604.15715查阅完整论文，代码和数据集也将在GitHub的open-compass/GTA仓库开放。
Q&A
Q1：GTA-Workflow的检查点评估机制是怎么运作的？
A：GTA-Workflow把每个任务的目标分解成一棵"目标树"，树的最底层叶节点是具体可核查的子目标，比如"折线图是否正确反映趋势"。AI评判模型对每个叶节点打0到10分，再按权重层层加权聚合到根节点，得出整个任务的总分。根节点得分超过7分即视为任务完成。这种机制既给出总体完成度，也保留了细粒度的子目标诊断信息。
Q2：GTA-Workflow测出来顶级AI成功率只有14%，是因为题目太难了吗？
A：难度确实比常规评测高，但"难"的来源是真实性而非刻意刁难。任务来自真实用户需求，使用真实可运行的工具，要求生成真实可用的成果物。在这个标准下，顶级AI成功率低的核心原因不是推理能力不足，而是在长达数十步的工具交互链条中难以保持稳定性，以及最终成果物的格式和结构经常不符合要求。
Q3：OpenClaw和Manus这些框架为什么能大幅提升AI的工作流完成率？
A：这些先进执行框架提供了更完善的系统级支持，包括动态规划能力（可以根据中间结果调整后续步骤）、持久化记忆管理（能记住任务各阶段的状态和中间结果）以及更稳健的多步骤工具协调机制。相比之下，基础框架（如Lagent）主要依赖AI模型自身的单次规划能力，遇到执行失败或状态丢失时缺乏恢复机制，导致任务中途崩溃的概率大幅升高。框架的差异，本质上是"工作流操作系统"设计水平的差异。

		自动登录	找回密码
密码			立即注册

上交大与腾讯发布：AI助手复杂任务完成成功率仅14%根源揭示突破 ...

浏览过的版块