\u200E
最新动态 一手掌握

人大&通义:IterResearch用40K上下文轻松实现2048轮交互不退化,人大代表属于什么身份

时间: 2026-03-02 20:43作者: 无量摩诃



以 40K 上下文,让 Agent 搜索 2048 轮,性能还能一路涨?这几乎是不可想象的。

当前主流的 Search Agent 都面临同一个尴尬:Agent 需要反复搜索网页、比对线索、验证假设、回溯修正,交互轮次动辄数十上百轮。但以 ReAct 为代表的传统范式,把每一轮的思考和工具返回结果不断追加到同一个上下文窗口中 —— 做得越多,上下文越臃肿,留给推理的空间越少,早期的噪声和错误路径还被永久「焊死」在记忆里。

结果就是:Agent 搜得越深入,反而「想」得越糊涂。

能不能让 Agent 在探索过程中不断「清理工作台」,始终在一个干净的空间里思考?

来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。

通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。

目前,该论文已被 ICLR 2026 接收。



    论文链接:https://arxiv.org/pdf/2511.07327 代码链接:https://github.com/Chen-GX/IterResearch

「堆上下文」为什么难以实现 Interaction Scaling?

在 Search Agent 场景下,Agent 的工作本质上是一个与外部环境不断交互的循环。传统 ReAct 范式将这一过程建模为「单上下文堆叠」:每一轮的推理和工具返回被持续追加到同一个上下文窗口中,形成线性增长的记忆链。

这种看似自然的设计,在长程任务中会引发两个结构性问题:

    其一是上下文窒息(context suffocation):上下文窗口的总容量是有限的,历史信息不断堆积意味着留给后续推理的「生成预算」被持续压缩。Agent 被迫给出更短、更浅的回答,最终滑向草率的结论; 其二是噪声污染(noise contamination):搜索过程中产生的大量网页摘要、早期的错误路径和无关线索被永久写入上下文,对后续推理产生级联干扰,信噪比持续走低。

社区已经意识到了这些问题,陆续提出了 context folding、summary 等缓解策略,试图为摇摇欲坠的上下文「续命」。但这些方法本质上是在补救,并未从根本上改变上下文线性增长的结构 —— 给 Agent 256K 甚至更长的窗口,也只是推迟崩溃,而非避免崩溃。

不再「堆叠」,而是「重构」:IterResearch 的核心思路

IterResearch 对这一问题的回应不是修修补补,而是从范式层面重新思考:与其不断往上下文里塞东西,不如让 Agent 学会「边做边清理」。



研究团队将长程研究过程形式化为一个马尔可夫决策过程(MDP)。核心思想是:Agent 不再维护一个不断膨胀的完整历史,而是通过一个持续进化的「演进式报告」(evolving report)来综合已有成果、压缩无关信息、更新推理状态。每一轮推理都在一个被重构过的、恒定复杂度的工作空间中展开。

具体来说,Agent 的每一步包含两个核心动作:

    决策阶段:Agent 基于当前状态,输出三部分 —— 思考过程(Think)、更新后的演进报告(Report)和本轮工具调用请求(Action)。报告在这里扮演了「压缩记忆」的角色,Agent 需要在每一轮主动决定哪些信息值得保留,哪些应该被丢弃。 状态转移阶段:进入下一轮时,完整的历史轨迹被有意丢弃,Agent 仅保留更新后的报告、上一轮的工具调用及其返回结果,三者共同构成新的推理起点。

从上下文管理的视角看,传统 ReAct 的状态空间随交互轮次 t 线性增长(O (t)),而 IterResearch 的工作空间始终保持恒定(O (1))。

研究团队指出,这种机制与 RNN/LSTM 中的隐状态更新有结构上的相似性 —— 都通过一个隐状态来承载记忆并逐步更新。不同之处在于,IterResearch 的「隐状态」是一份显式、可解释的研究报告,既能浓缩历史,又能为下一步推理提供清晰的起点。



40K 上下文,2048 轮交互不退化:Interaction Scaling 的威力

这项工作中最核心的发现,就是 Interaction Scaling 特性 ——给 Agent 更多的交互预算,性能就能持续提升,而不会像传统方法那样因为上下文溢出而崩溃。



在 BrowseComp 基准上,研究团队将 Agent 的最大交互轮次从 2 逐步放宽到 2048。结果显示,IterResearch 的准确率从 3.5% 一路攀升到 42.5%,且在 2048 轮时依然没有出现明显的退化迹象。而传统单上下文方法在几十轮后就已经不堪重负。

值得强调的是,2048 并非 IterResearch 的交互上限,而仅是实验评测范围的终点。模型在 2048 轮时性能曲线仍保持上升趋势,表明该范式在理论上具备进一步扩展的潜力。

这一结果传递了一个重要信号:长程任务的「难」,可能并非完全来自模型推理能力不足,更有可能是探索深度受限。当 Agent 拥有一个干净的思维空间并被允许充分探索时,它确实有能力在超长任务中持续进步。

另一个有意思的发现是:尽管最大轮次被设置为 2048,Agent 实际上平均只用了约 80 轮。它学会了在获取足够信息后主动终止,而非机械地耗尽预算 —— 这说明Agent 不仅学会了「走得远」,还学会了「知道何时停」。

「即插即用」的推理范式:不训练也能提升闭源模型

如果仅把 IterResearch 的迭代逻辑作为提示策略(prompting strategy),直接应用于闭源模型而不做任何训练,效果会怎样?

研究团队在 o3 和 DeepSeek-V3.1 上做了验证。在完全相同的任务设定下,相比传统的 ReAct 提示范式,IterResearch 在最具挑战性的 BrowseComp 上分别为 o3 带来了 12.7 个百分点、为 DeepSeek-V3.1 带来了 19.2 个百分点的提升。



这说明IterResearch 的核心优势在于结构性的认知机制,而非依赖特定数据或微调技巧。无论底层模型是什么架构,它触及的都是长程推理中的共性瓶颈。

总结

IterResearch 提出了一个简洁而有效的范式转换:与其不断修补一个注定会崩溃的线性上下文,不如从结构上让 Agent 学会「边做边重构思维」。

这一思路在训练框架、提示策略和跨范式迁移三个层面都展现了一致的有效性,而其揭示的 Interaction Scaling 特性更是为长程 Agent 的能力边界打开了新的想象空间。在 Agent 走向真正长期、持续运行的未来,IterResearch 提供了一个值得关注的方向。

作者介绍

第一作者陈国鑫,中国人民大学高瓴人工智能学院博士生,导师为赵鑫教授和宋睿华教授,研究方向为 LLM 推理与 Agent,聚焦搜索智能体与代码智能体。曾在阿里巴巴通义实验室等机构实习,在 ICLR、ICML、NeurIPS、ACL 等顶级会议发表多篇论文。本工作由中国人民大学与阿里巴巴通义实验室合作完成。