姚顺雨腾讯第一篇论文，道破为什么AI死活听不懂人话 ...

集群智慧张老师 · 发表于 2026-2-15 17:29:06

今天的大语言模型能解奥数题、通过专业考试、写复杂代码，但它们在真实世界的应用中却常常“翻车”。问题出在哪里？
在姚顺雨加入腾讯后发布的首篇论文里，他对于这个现象提出了一个观点：
“当前AI与真正智能之间的鸿沟，不在于知识的多少，而在于学习的能力。一个装满知识却不会学习的AI，就像一个背了整本字典却不会写作的人，看起来博学，实则僵化。”
这篇论文的标题叫做《CL-bench: A Benchmark for Context Learning》。
CL-bench是一个专门评测语言模型“上下文学习能力”的大规模基准测试集，它的全称是Context Learning Benchmark，即上下文学习测试集。
它包含500个复杂上下文场景、1899个任务和31607个评估标注点，所有内容均由各个领域资深专家精心挑选。
这个基准的核心设计理念，是挑选那些在模型的预训练数据中不存在的难题，让每个任务都必须要求模型从提供的上下文中学习全新的知识才能解决。
这篇论文不仅揭示了当前AI的根本性缺陷，还构建了一个专属于AI的评价体系，非常值得AI以及agent从业者学习。
01
一面照出AI“假学习”真相的镜子
从数据规模来看，CL-bench的每个上下文平均包含3.8个任务，最多可达12个任务。
更重要的是，500个复杂上下文场景中，包含序列依赖性任务的场景占51.1%。
这也就是说，你想要AI解决后面的任务，那就必须先从前面的任务中得到正确的答案，这种多轮交互设计极大增加了难度。
单任务标注平均需领域专家20小时，每个任务平均配备16.6个评估标注项，从事实正确性、计算准确性、程序正确性、内容完整性和格式合规性等多个维度进行严格验证。
CL-bench考的不是AI记住了多少知识，而是AI能不能像人类一样，拿到一份新材料后快速学会并正确使用。
这些任务有个共同点，AI必须靠临场发挥才能通过考试。
预训练时学到的知识在这里用处不大，因为CL-bench里的知识要么是专家们新编的，要么是现实世界中极其小众的内容。
那如何保证CL-bench里的新知识是模型原来就没有的呢？
论文通过消融实验验证了这一点。在不提供上下文的情况下，所有被测模型只能解决不到1%的任务。这充分证明了任务对上下文的依赖性。
CL-bench将上下文学习场景分为四大类别，每类对应不同的认知要求：

领域知识推理（Domain Knowledge Reasoning）：涵盖金融、医疗、人文、法律咨询、生活方式、管理和科学七个子领域。
上下文提供专业领域知识，如虚构的法律体系、创新的金融工具或小众专业知识，模型需要学习并应用这些知识进行推理。比如给AI一个虚构国家的完整法律条文和判例，让AI判罚一起复杂的民事纠纷。
规则系统应用（Rule System Application）：包括游戏机制、数学形式体系、编程语法、法律法规和技术标准五个子类。
上下文提供明确定义的规则系统，模型必须理解并严格遵守这些规则。比如给定一门全新编程语言的语法规范，让模型编写符合规范的程序；或者给定一套新游戏的完整规则手册，让模型分析游戏状态并给出最优策略。
程序性任务执行（Procedural Task Execution）：分为教学程序、操作程序和工作流编排三类。
上下文提供复杂的操作流程、产品手册或工作流程，模型需要学习并正确执行这些程序。例如给定一份无人机物流系统约7000字的API文档，让模型将自然语言指令转换为安全合规的伪代码。
经验发现与模拟（Empirical Discovery & Simulation）：是最具挑战性的类别，包括实验数据、观测数据和模拟环境三个子类。

与前三类强调演绎推理不同，这一类要求归纳推理。从大量数据中发现潜在规律，或在虚拟环境中进行推理和决策。比如给定300份带电粒子在磁场中运动的实验日志，让模型推导出运动规律并计算特定参数。
这四类场景基本覆盖了人类在现实工作中遇到的主要学习情境，而CL-bench又把这些真实场景搬进了评测体系。
说得更直白些，领域知识推理考的是“能不能学会新概念”，规则系统应用考的是“能不能遵守新规则”，程序性任务执行考的是“能不能照着新流程做事”，经验发现与模拟考的是“能不能从数据里找规律”。
这四种能力，人类在日常工作中天天用，但AI显然还没学会。
为了确保测试的是真正的学习能力而非记忆，CL-bench采用了严格的“防污染”设计：
虚构创作：所有的测试内容都是由专家们完全原创的。
就拿刚才的虚拟国家为例，它包含一套完整的宪法、民法、刑法，甚至连判例都有。其中的法律原则和判例逻辑与现实世界任何国家都不同。
或者创造一门名为“EduScript”的教育编程语言，具有独特的语法规则和控制结构。
现有内容修改：CL-bench还对真实知识进行了系统性地改动，比如修改著名历史事件的因果关系、改变物理定律的数学表达、或调整技术标准的具体参数。
这确保了即使模型见过类似内容，也无法直接套用预训练知识。
小众新兴内容整合：CL-bench里面还纳入了预训练数据中极少出现的内容，就像2024年后发布的新产品技术文档、最新的科研论文发现、或极其专业的小众领域知识。
这三招组合拳，目的只有一个，让AI没法作弊。你不能靠背过的知识答题，必须现场学。这就像考试时老师突然换了一套从没见过的题型，你只能靠理解能力和学习能力来应对。
论文通过消融实验验证了这一设计的有效性：在不提供上下文的情况下，即使是最强的 GPT-5.1 模型也只能解决不到 1% 的任务，充分证明了任务对上下文的依赖性。
02
CL-bench给出的结果
让人们既开心又难过
CL-bench的这套评估体系的严格程度超出想象。
16.6个评估标注项意味着什么？意味着你不能只答对大方向，每个细节都要对。就像做数学题，你不仅要答案对，步骤也要对，格式还要对，引用的公式也要对。任何一个环节出错，整道题就算错。
这些标准会从六个角度检查AI的答案，每个标准要么对，要么错，没有中间地带。
事实对不对？比如AI说这个虚构国家的宪法第3条规定了什么，得和上下文里写的一模一样才算对。
计算对不对？如果任务要求计算带电粒子的运动轨迹，那每一步公式、每一个数字都得验证。
推理对不对？AI得按照上下文里给的规则来推理，不能自己瞎编逻辑。
代码对不对？如果要写程序，得严格遵守文档里的 API 规范，少一个参数都不行。
完整不完整？该做的步骤一个都不能少，漏了哪怕一个关键环节都算错。
格式对不对？让你输出JSON就得是JSON，让你用表格就得是表格。
这套评分系统最狠的地方在于，只有所有标准全部通过，任务才算完成。只要有一个标准没过，整个任务就算失败。这就像考试，选择题全对才给分，错一个就是零分。
为了保证这套自动评分系统靠谱，论文做了两个验证。
一是让5个不同的AI模型（GPT-5.1/5.2、Claude Opus 4.5、Qwen-3-Max、ERNIE 4.0）当评委，它们的判断结果90%以上都一致；二是人工抽查了200个案例，发现AI评委的准确率也超过90%。这说明这套评分系统确实可信。
CL-bench的评测显示，AI距离解决实际问题还相距甚远，往好处想，人类还不用担心被AI取代。

十个最先进的语言模型，平均只能解决17.2%的全量任务，所有模型里表现最好的是GPT-5.1，但也仅达到23.7%。这意味着在大多数情况下，即使上下文中包含了解决问题所需的全部信息，模型仍然失败了。
这个数字值得细品。23.7%意味着给AI一份完整的操作手册，它有四分之三的概率还是搞不定。
这就像你雇了个员工，你给他详细讲了一遍具体操作流程，结果轮到他上岗的时候，十次有八次都做错。在现实世界里，这样的员工早就被开除了。
更深入的错误分析揭示了失败的主要原因。
超过55%的错误源于“上下文忽略”：模型根本没有注意到上下文中的关键信息，而是试图用预训练知识解决问题。
超过60%的错误属于“上下文误用”：模型看到了信息但理解错误或应用不当。
还有超过35%的错误是格式错误，说明模型连明确的格式指令都无法遵守。
这三种错误类型揭示了AI的根本问题。上下文忽略说明AI不会“看”；上下文误用说明AI不会“想”；格式错误说明AI不会“听”。
一个不会看、不会想、不会听的学生，怎么可能学会新知识？
这些发现揭示了一个被长期忽视的真相：当前的AI模型本质上是“参数推理者”而非“上下文学习者”。它们擅长调用预训练时压缩在权重中的静态知识，却不擅长从当前输入中动态学习新知识。
因为真实任务往往需要根据具体上下文灵活应对，而非套用固定模式。
所以AI在标准化考试中表现优异，在真实工作场景中却频频出错。
打个比方，现在的AI就像一个背了整本字典的人，你问他字典里的字怎么写，他都能答上来。但你给他一本新书让他学习，他就傻眼了。他不会学，只会背。这就是“参数推理者”和“上下文学习者”的区别。
四大类别中，领域知识推理相对最容易，最好的模型能达到25.3%的解决率。规则系统应用和程序性任务执行难度适中，大部分模型在15-20%之间。但经验发现与模拟类任务的表现断崖式下跌，所有模型平均只有11.8%的解决率。
这个差异很有意思。
演绎推理（应用已知规则）比归纳推理（从数据中发现规律）容易得多。给AI一套规则让它照着做，它还能勉强应付；让它从数据里找规律，它就彻底懵了。
这说明AI的学习能力还停留在“照葫芦画瓢”的阶段，远没到“举一反三”的程度。
在子类别层面，差异更加明显。在规则系统应用中，法律法规类任务的解决率超过 29%, GPT-5.1 甚至达到 44.8%，但数学形式体系类任务大部分模型都在 15% 以下。
在程序性任务执行中，工作流编排的解决率普遍在 20% 以上，但操作程序类任务明显更难。
这些差异透露出另一个信息，AI对不同类型知识的学习能力差异巨大。有些知识它学得快，有些知识它怎么都学不会。这就像人类学生，有人擅长文科，有人擅长理科。
但问题是，AI的偏科比人类严重得多。
03
论文引发的启示
无可置疑的是，CL-bench填补了现有评测体系的关键空白。
在过去，长上下文评测主要考AI能不能从一大堆文字里找到信息。比如给AI一篇10万字的小说，问“主角的妈妈叫什么名字”,AI只要能翻到那一页找到答案就行。
这更像是考“查字典”的能力，不是“学习”的能力。
指令遵循评测主要考AI听不听话。比如让AI“用JSON格式输出，不超过100字”，看它能不能照做。
但这类测试的知识都很简单，AI早就会了，只是看它守不守规矩而已。
领域任务评测问题更大。它既考AI会不会找资料，又考AI会不会用资料。结果AI答错了，你根本不知道是因为它没找对资料，还是找对了但不会用。
就像学生考试不及格，你不知道是他没复习，还是复习了但没学会。
CL-bench则专注于一个明确的能力维度，从复杂上下文中学习新知识并正确应用。
它将上下文准备与上下文学习解耦。所有必要信息都已组织好并提供，模型只需学习和应用，无需外部检索。这使得评测结果能够精确反映模型的上下文学习能力，而非其他混杂因素。
论文还发现了一些反直觉的现象，GPT-5.2的表现反而比GPT-5.1差5.6%。

深入分析发现，GPT-5.2在长上下文推理时难以维持连贯的因果链，且更频繁地违反上下文中的明确约束。
这说明模型的版本迭代并不总是带来全面提升，某些能力的优化可能以牺牲其他能力为代价。
这个发现很重要。我们一直以为新版本肯定比旧版本强，但事实并非如此。GPT-5.2可能在某些方面确实更强了，但在上下文学习这个维度上反而退步了。这就像一个学生，数学成绩提高了，但语文成绩下降了，总分反而降了。
再比如，增加推理强度对不同模型的效果差异巨大。
GPT-5.1在高推理强度下平均提升2.5%，在管理和实验数据类任务上提升近6%。
但GPT-5.2在某些子类别上反而出现负增长。这表明“更多思考”只有在模型具备正确的上下文学习机制时才有效，否则可能只是在错误的方向上越走越远。
这又是一个反直觉的发现。我们以为让AI多想想总是好的，但实际上，如果AI的学习机制本身就有问题，让它多想只会让错误更严重。就像一个方向错了的人，走得越快，离目标越远。
CL-bench揭示的问题不仅仅是技术层面的，更是范式层面的。当前AI的训练范式和真实应用场景之间存在根本性的不匹配。我们优化出的模型擅长对“已知”事物进行推理，但用户需要的是能解决依赖于动态上下文的任务的模型。
这个不匹配解释了为什么AI在实验室里表现优异，到了真实场景就频频翻车。实验室里的任务大多是封闭的、静态的，答案在训练数据里都见过。但真实世界的任务是开放的、动态的，需要根据具体情况灵活应对。
论文提出的“上下文学习”能力，本质上是让AI从“死记硬背”转向“活学活用”。
如果AI真的能学会从上下文中学习，那它就能像人类一样，面对新情况、新问题时快速适应，而不是只会套用固定模式。
CL-bench的意义，是为了给大模型公司启示，告诉他们下一代AI不需要更大的模型，不需要更多的参数，而需要更强的学习能力。
但上下文学习只是第一步。论文提到，即便上下文学习足够强大，模型的上下文窗口一旦清空，学到的知识随之消失。
因此，下一个挑战是如何让从上下文中习得的知识持久化。
姚顺雨在最近的公开发言中也谈到了这个方向。他认为，自主学习几乎已经形成了共识，而且这个事情已经在发生了。
他说ChatGPT在利用用户数据不断拟合人的聊天风格，Claude Code已经写了自己项目的95%的代码。在某种程度上它在帮助自己变得更好。
但他也指出，这些自主学习的例子目前还局限在特定场景下，没有让人感觉到非常大的威力。“这个事情可能会更像一个渐变，而不像一个突变。”
从更宏观的角度看，CL-bench揭示的问题反映了AI发展的一个深层矛盾。我们一直在追求更强的推理能力、更大的知识容量，但忽视了一个更基础的能力，那就是学习。
没有学习能力的AI，再强也只是一个高级的查询系统。只有具备了真正的学习能力，AI才能从“工具”进化为“智能体”。

		自动登录	找回密码
密码			立即注册

姚顺雨腾讯第一篇论文，道破为什么AI死活听不懂人话 ...

浏览过的版块