Anthropic：软件工程占AI智能体调用近五成，垂直领域渗透率极低,软件工程强调

时间： 2026-02-23 00:16作者：金媛熙

IT之家 2 月 22 日消息，AI 智能体已逐渐从概念走向实际应用，几乎所有 AI 厂商都已经推出了自家的 AI 智能体产品。然而，人们对于 AI 智能体在真实世界中的实际使用方式却知之甚少。

Anthropic 于当地时间 2 月 18 日发布了首份 AI 智能体行为实测报告，通过对 Claude Code 及公共 API 上的数百万次人机交互进行隐私保护分析，首次系统性地揭示了 AI 智能体在实际部署中的自主程度、风险分布与监督模式。

研究团队发现，Claude Code 的自主工作时长显著增加，其单次连续自主运行的最长时长在三个月内几乎翻倍。

在 2025 年 10 月至 2026 年 1 月期间，其“turn duration”（即从模型开始执行任务到停止的时间）第 99.9 百分位的运行时长从不足 25 分钟上升至超过 45 分钟。相比之下，中位数时长维持在约 45 秒，且过去数月波动有限。

研究指出，这一增长趋势在不同模型版本发布后变化平滑，说明自主运行时间的增加并非单纯由模型能力提升所致，也可能与用户信任积累、任务复杂度提升及产品优化等因素有关。

在内部使用数据中，Claude Code 在处理最具挑战性任务时的成功率自 2025 年 8 月至 12 月间翻倍增长，与此同时，平均每个会话中的人工干预次数从 5.4 次下降至 3.3 次。研究认为，这表明模型在实际部署中的“可用自主空间”可能高于当前用户赋予的水平。

也就是说，在 Claude Code 中，经验丰富的用户更倾向于采用“全自动模式”，让 Claude 自主运行，仅在需要时介入干预。

相比之下，新用户（使用次数少于 50 次）仅在约 20% 的会话中启用“全自动模式”，而当使用次数达到 750 次以上时，该比例上升至 40% 以上。与此同时，用户中途打断模型执行的比例也从约 5% 上升至约 9%。

Anthropic 在公开 API 数据中也观察到类似情况。针对低复杂度任务（如修改单行代码），约 87% 的工具调用存在某种形式的人工参与；而在高复杂度任务（如查找零日漏洞或编写编译器）中，这一比例降至 67%。研究认为，一方面复杂任务的步骤更多，逐步审批在结构上更难实现；另一方面，复杂任务可能更多源于“老油条”用户。

另外，模型本身也会主动限制其自主性。数据显示，在复杂任务中，Claude Code 因不确定而暂停请求澄清的次数，是人类打断次数的两倍以上。而在高复杂度场景下，模型主动提问的次数同样超过人类主动打断的次数。研究认为，智能体主动确认潜在的问题，是部署系统中的重要监督机制之一。

在风险领域，研究显示，大多数通过公共 API 执行的操作风险较低且可逆。软件工程占所有智能体活动的近 50%，但医疗、金融和网络安全等领域也已出现新兴应用。尽管高风险操作目前占比极小，但一旦出错，其后果可能相当严重。

研究同时指出其局限性，包括仅能分析单一模型提供商的流量、对公共 API 的会话级行为缺乏完整可见性等。基于这些发现，Anthropic 向模型开发者、产品开发者和政策制定者提出建议：投资于部署后监控基础设施、训练模型识别自身不确定性、设计支持用户有效监督的交互工具，并避免过早强制规定具体的交互模式。