进展中 · 0 次更新Fact 9/10

AI Agent Autonomy Study Shows Computer-Control Sessions 47× Longer Than Search

文章语言

简体中文

一篇分析 Perplexity 搜索与计算机控制代理生产数据的 arXiv 论文显示，计算机控制会话平均自主运行 26 分钟，而搜索会话仅 33 秒；在匹配任务中，完成时间从 269 分钟降至 36 分钟。

Guidances Staff · Updated June 14, 2026 · 已审阅来源

Open article · no sign-in required

Editorial illustration · June 14, 2026

Illustration of AI agent autonomy: search agents tend to work in short loops, while computer-control agents can run longer multi-step workflows.

来源与披露

View source at arxiv.org

The article accurately summarizes the findings of the arXiv paper, including specific numerical data on autonomous operation time and task completion time for Perplexity's search and computer-control agents. All calculations and comparisons are consistent with the provided source material. The article maintains a neutral and informative tone.

Market lens

Agent runtime spending can spill into security, observability, and workflow infrastructure

The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.

Impact path

Runtime spend → infra stack

Signals to watch

Procurement language around audit logs and cost ceilings
Security and observability vendors attaching agent controls
Workflow platforms exposing approval and tool-call governance

Verification schedule

D+1 · Jun 15

Do buyers repeat audit/cost-control requirements?

D+3 · Jun 17

Do vendors publish runtime-control SKUs or partnerships?

D+7 · Jun 21

Do budgets move from pilots into operating infrastructure?

Informational context only — not investment, legal, tax, or financial advice.

一项衡量 AI 代理自主性与效率的新研究，基于从真实生产环境收集的数据发布。该 arXiv 论文分析了 Perplexity 的搜索代理和计算机控制代理的使用记录，对两种模式下代理自主性、任务效率和任务范围的差异进行了定量比较。

自主运行时间的差异

根据研究，计算机控制代理会话平均可自主运行 26 分钟。这指的是代理在没有用户干预的情况下独立工作的时间。相比之下，搜索代理会话的平均自主运行时间仅为 33 秒。约 47 倍的差异表明，这两类代理所需的用户干预水平和所处理的任务复杂度并不相同。

搜索代理通常被设计为针对单个查询生成响应并向用户返回结果。用户通过查看结果、输入后续查询或结束会话来进行交互。这种结构天然形成较短的自主运行周期。相比之下，计算机控制代理可以在操作系统层面执行应用程序、处理文件，并按顺序完成多步骤任务。其运行方式是由用户设定初始目标，随后由代理独立处理中间步骤，因此自主运行时间更长。

任务完成时间的缩短

论文还报告了任务完成时间的变化。在执行匹配任务类型时，搜索代理平均需要 269 分钟，而计算机控制代理平均用时 36 分钟完成相同任务。这相当于约 86.6% 的时间节省，表明更高的代理自主性可以提升任务效率。

这种时间缩短源于多个因素。首先，计算机控制代理可以自动化多步骤任务，减少用户在每个阶段的介入需求。其次，代理能够快速执行重复性任务，持续推进而无需等待或注意力分散。第三，计算机控制代理可以通过单一命令执行复杂工作流，减少用户手动切换工具或管理中间结果的需要。

知识工作的重构

这项研究为 AI 代理如何改变知识工作结构提供了实证证据。传统上，知识工作由信息检索、分析、决策和执行等阶段构成，每个阶段都需要人的判断和介入。搜索代理主要支持信息检索阶段，其余阶段仍由用户承担。计算机控制代理则有潜力将从信息检索到执行的整个工作流自动化。

自主性的提升也与任务范围的扩展相关。搜索代理主要局限于信息提供，而计算机控制代理可以执行更广泛的任务，包括文档创建、数据处理、软件执行和系统管理。这表明，代理正在从简单工具演进为协作伙伴。

运营与设计启示

这项基于生产数据的研究为 AI 代理的设计与部署提供了重要启示。首先，自主性与效率之间存在相关性。代理能够独立运行的时间越长，总任务时间往往越短。这意味着在代理设计中，自主性可以被视为核心指标。

其次，不同任务类型适合的代理架构不同。对于简单问答或信息检索，搜索代理已足够；但对于复杂工作流或多步骤任务，计算机控制代理可能更为合适。产品设计者可以分析用户任务特征，以选择适当的代理类型。

第三，高自主性代理对可靠性和安全性的要求也更高。一个能够独立运行 26 分钟的代理，必须能够处理这段时间内可能出现的错误、异常情况和安全风险。这意味着代理的错误处理、状态监测和安全机制设计都很重要。

第四，自主性的提升也会影响用户体验设计。在短搜索会话中，即时反馈很重要；而在长时间自主运行会话中，则需要提供进度指示、中间结果检查以及必要时介入的界面。必须提供透明性和可控性，使用户在代理长时间运行时能够放心处理其他任务。

第五，成本结构也不同。运行 26 分钟的代理比运行 33 秒的代理消耗更多计算资源。然而，如果总任务时间从 269 分钟降至 36 分钟，则可以结合用户时间节省和生产力提升来评估成本效益。运营方必须综合评估代理执行成本与用户生产力改善之间的关系。

不确定性与限制

尽管这项研究因使用真实生产数据而具有重要意义，但仍存在若干限制。首先，仅凭已公开的元数据，很难确定具体任务类型、成功率或用户满意度。运行 26 分钟的代理是否真正成功完成任务，或是否在中途遇到错误，目前并不清楚。

其次，Perplexity 的用户群体和任务特征是否能够代表一般知识工作，仍然不确定。来自特定平台的数据可能受到该平台用户特征、界面设计和任务类型的影响。在其他领域或用户群体中，自主运行时间与效率之间的关系可能不同。

第三，自主运行时间与任务完成时间之间的关系未必是线性的。某些任务可能需要较长的自主运行时间，但总完成时间较短；反之亦然。要明确这两个指标之间的因果关系，还需要进一步分析。

第四，论文报告的数值是平均值，因此无法了解单个会话的波动性或分布特征。一些计算机控制会话可能在几分钟内完成，而另一些可能持续数小时。这种差异性可能为代理设计和运营提供重要信息。

未来研究方向

这项研究提出了一种衡量 AI 代理自主性与效率的方法，但也留下了若干后续问题。首先，自主运行时间与任务成功率之间是什么关系？需要确定长时间自主运行是否总是意味着更高成功率，还是在超过某些阈值后错误概率会上升。

其次，哪些任务特征需要较长的自主运行时间？分析任务复杂度、步骤数量和不确定性水平如何影响自主运行时间，有助于优化代理设计和任务分配。

第三，用户如何体验长时间自主运行？了解用户在代理运行 26 分钟期间会做什么、需要什么信息以及何时希望介入，有助于改进用户界面设计。

第四，自主性与可控性的平衡点在哪里？高自主性可以提高效率，但也可能限制用户理解代理行为并在必要时介入的能力。找到最佳平衡点十分重要。

构建者启示

将自主性设为核心设计目标，但按任务类型区分目标自主运行时长。为简单任务构建支持短自主周期的架构，为复杂工作流构建支持长自主周期的架构。通过增强多步骤工作流自动化、异常处理和状态管理能力，可以延长自主运行时间。
为长时间自主运行构建可靠性基础设施。设计错误恢复、进度监测、安全中断机制和用户通知系统，使代理能够稳定执行长任务。在生产环境中持续衡量并改进自主运行时间、成功率和用户介入频率。尤其对于运行超过 20 分钟的会话，应提供中间检查点和回滚能力，以避免错误发生时必须从头重启整个任务。
设计同时提供自主性与透明性的用户界面。对于长时间自主运行会话，应提供实时进度指示、中间结果检查以及必要时可介入的控制功能。应确保透明性，使用户能够理解并信任代理行为，同时避免过多通知干扰用户。可实施选择性通知策略，仅在代理作出重要决策或遇到意外情况时提醒用户。

Want follow-up alerts? Subscribe by email after reading the public article.

Market lens

Agent runtime spending can spill into security, observability, and workflow infrastructure

The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.

Impact path

Runtime spend → infra stack

Signals to watch

Procurement language around audit logs and cost ceilings
Security and observability vendors attaching agent controls
Workflow platforms exposing approval and tool-call governance

Verification schedule

D+1 · Jun 15

Do buyers repeat audit/cost-control requirements?

D+3 · Jun 17

Do vendors publish runtime-control SKUs or partnerships?

D+7 · Jun 21

Do budgets move from pilots into operating infrastructure?

Informational context only — not investment, legal, tax, or financial advice.

Set profile for personalized briefings

◆

视觉简报

A simple comparison of how search agents and computer-control agents differ in autonomy and workflow depth.

更正与安全

See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.

Report a correction, privacy, rights, or safety issue

#AI#开发者

◆

AI Agent Autonomy Study Shows Computer-Control Sessions 47× Longer Than Search

Agent runtime spending can spill into security, observability, and workflow infrastructure

Impact path

Signals to watch

Verification schedule

自主运行时间的差异

任务完成时间的缩短

知识工作的重构

运营与设计启示

不确定性与限制

未来研究方向

构建者启示

Agent runtime spending can spill into security, observability, and workflow infrastructure

Impact path

Signals to watch

Verification schedule

视觉简报

更多报道

Meta 的 AI 转向进入商业检验阶段：难点在于如何卖出这套策略

卡尼关于 AI 依赖的警示将模型访问与采购韧性推至焦点

Anthropic在政府指令后切断对Fable 5和Mythos 5的访问，凸显AI部署与合规之间的关系