進展中 · 0 次更新Fact 9/10

AI 代理自主性研究顯示，電腦控制會話比搜尋長 47 倍

文章語言

繁體中文

一篇分析 Perplexity 搜尋與電腦控制代理生產資料的 arXiv 論文指出，電腦控制會話平均可自主運作 26 分鐘，而搜尋會話僅 33 秒；在配對任務中，完成時間則由 269 分鐘降至 36 分鐘。

Guidances Staff · Updated June 14, 2026 · 已審閱來源

Open article · no sign-in required

Editorial illustration · June 14, 2026

Illustration of AI agent autonomy: search agents tend to work in short loops, while computer-control agents can run longer multi-step workflows.

来源与披露

View source at arxiv.org

The article accurately summarizes the findings of the arXiv paper, including specific numerical data on autonomous operation time and task completion time for Perplexity's search and computer-control agents. All calculations and comparisons are consistent with the provided source material. The article maintains a neutral and informative tone.

Market lens

Agent runtime spending can spill into security, observability, and workflow infrastructure

The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.

Impact path

Runtime spend → infra stack

Signals to watch

Procurement language around audit logs and cost ceilings
Security and observability vendors attaching agent controls
Workflow platforms exposing approval and tool-call governance

Verification schedule

D+1 · Jun 15

Do buyers repeat audit/cost-control requirements?

D+3 · Jun 17

Do vendors publish runtime-control SKUs or partnerships?

D+7 · Jun 21

Do budgets move from pilots into operating infrastructure?

Informational context only — not investment, legal, tax, or financial advice.

基於從真實生產環境蒐集的資料，一項衡量 AI 代理自主性與效率的新研究已經發表。這篇 arXiv 論文分析了 Perplexity 的搜尋代理與電腦控制代理使用紀錄，對兩種模式在代理自主性、任務效率與任務範圍上的差異進行了量化比較。

自主運作時間的差異

根據研究，電腦控制代理會話平均可自主運作 26 分鐘。這指的是代理在沒有使用者介入的情況下獨立工作的時間。相較之下，搜尋代理會話的平均自主運作時間僅為 33 秒。約 47 倍的差異顯示，兩類代理所需的使用者介入程度與所處理的任務複雜度並不相同。

搜尋代理通常設計為針對單一查詢生成回應，並將結果返回給使用者。使用者會先檢視結果，再輸入額外查詢或結束會話。這種結構本質上會產生較短的自主運作週期。相較之下，電腦控制代理可以在作業系統層級執行應用程式、處理檔案，並依序完成多步驟任務。其運作方式是由使用者先設定初始目標，之後由代理獨立處理中間步驟，因此自主運作時間較長。

任務完成時間的縮短

論文也報告了任務完成時間的變化。在執行配對任務類型時，搜尋代理平均需要 269 分鐘，而電腦控制代理平均僅需 36 分鐘即可完成相同任務。這約等於 86.6% 的時間節省，顯示較高的代理自主性有助於提升任務效率。

這種時間縮短來自多項因素。首先，電腦控制代理可以自動化多步驟任務，減少使用者在每個階段介入的需要。其次，代理能快速執行重複性工作，持續推進而不受等待時間或注意力分散影響。第三，電腦控制代理可以透過單一指令執行複雜工作流程，減少使用者手動切換工具或管理中間結果的需要。

知識工作的重組

這項研究為 AI 代理如何改變知識工作的結構提供了實證證據。傳統上，知識工作由資訊檢索、分析、決策與執行等階段構成，每個階段都需要人類判斷與介入。搜尋代理主要支援資訊檢索階段，其餘階段仍由使用者處理。電腦控制代理則有潛力將從資訊檢索到執行的整個工作流程自動化。

自主性的提升也與任務範圍的擴大相關。搜尋代理主要侷限於資訊提供，但電腦控制代理可以執行更廣泛的任務，包括文件建立、資料處理、軟體執行與系統管理。這顯示代理正從單純工具演進為協作夥伴。

營運與設計含義

這項基於生產資料的研究，對 AI 代理的設計與部署提供了重要啟示。首先，研究觀察到自主性與效率之間存在關聯。代理能夠獨立運作的時間越長，整體任務時間往往越短。這意味著在代理設計中，自主性可被視為核心指標。

其次，不同任務類型適合的代理架構並不相同。對於簡單問答或資訊檢索，搜尋代理已足夠；但對於複雜工作流程或多步驟任務，電腦控制代理可能更為合適。產品設計者可以分析使用者任務特徵，以選擇適當的代理類型。

第三，高自主性代理對可靠性與安全性的要求也更高。一個可獨立運作 26 分鐘的代理，必須能夠處理在此期間可能出現的錯誤、例外情況與安全風險。這表示代理的錯誤處理、狀態監測與安全機制設計都十分重要。

第四，自主性的提升也會影響使用者體驗設計。在短暫的搜尋會話中，即時回饋很重要；但在長時間自主運作的會話中，則需要提供進度顯示、中間結果檢視，以及必要時可介入的介面。必須提供透明度與可控性，讓使用者在代理長時間運作時仍能放心處理其他工作。

第五，成本結構也有所不同。運作 26 分鐘的代理所消耗的運算資源，會高於僅運作 33 秒的代理。然而，如果整體任務時間從 269 分鐘降至 36 分鐘，則可在使用者時間節省與生產力提升的脈絡下評估其成本效益。營運方必須綜合衡量代理執行成本與使用者生產力改善。

不確定性與限制

雖然這項研究因使用實際生產資料而具有重要意義，但仍存在若干限制。首先，僅憑已公開的中繼資料，難以判定具體任務類型、成功率或使用者滿意度。那些運作了 26 分鐘的代理是否 वास्तव際成功完成任務，或是否在中途遇到錯誤，並不明確。

其次，Perplexity 的使用者基礎與任務特徵是否能代表一般知識工作，仍不確定。特定平台的資料可能受到該平台使用者特性、介面設計與任務類型的影響。在其他領域或使用者族群中，自主運作時間與效率之間的關係可能不同。

第三，自主運作時間與任務完成時間之間的關係未必是線性的。有些任務可能需要較長的自主運作時間，但整體完成時間卻很短；反之亦然。要釐清這兩項指標之間的因果關係，仍需進一步分析。

第四，論文所報告的數值為平均值，因此個別會話的變異性或分布特徵並不清楚。有些電腦控制會話可能在數分鐘內完成，也有些可能持續數小時。這種變異性可能為代理設計與營運提供重要資訊。

未來研究方向

這項研究提出了衡量 AI 代理自主性與效率的方法論，但也留下若干後續問題。首先，自主運作時間與任務成功率之間的關係為何？必須釐清長時間自主運作是否必然意味著較高成功率，或是在超過某些門檻後錯誤機率是否會上升。

其次，哪些任務特徵需要較長的自主運作？分析任務複雜度、步驟數與不確定性程度如何影響自主運作時間，有助於優化代理設計與任務分配。

第三，使用者如何體驗長時間自主運作？了解使用者在代理運作 26 分鐘期間會做什麼、希望獲得哪些資訊，以及何時希望介入，將有助於設計更好的使用者介面。

第四，自主性與可控性的平衡點在哪裡？高自主性可提升效率，但也可能限制使用者理解代理行為與在必要時介入的能力。找到最佳平衡點十分重要。

構建者啟示

將自主性設定為核心設計目標，但依任務類型區分目標自主運作時間。為簡單任務建立支援短自主週期的架構，為複雜工作流程建立支援長自主週期的架構。透過強化多步驟工作流程自動化、例外處理與狀態管理能力，可延長自主運作時間。
建立支援長時間自主運作的可靠性基礎設施。設計錯誤復原、進度監測、安全中斷機制與使用者通知系統，使代理能穩定執行長任務。持續在生產環境中衡量並改善自主運作時間、成功率與使用者介入頻率。特別是對於運作超過 20 分鐘的會話，應提供中間檢查點與回復功能，以避免發生錯誤時必須從頭重做整個任務。
設計同時提供自主性與透明度的使用者介面。對於長時間自主運作的會話，應提供即時進度顯示、中間結果檢視，以及必要時可介入的控制功能。應確保透明度，使使用者能理解並信任代理行為，但也要避免過度通知干擾使用者。可實作選擇性通知策略，僅在代理做出重要決策或遇到非預期情況時提醒使用者。

Want follow-up alerts? Subscribe by email after reading the public article.

Market lens

Agent runtime spending can spill into security, observability, and workflow infrastructure

The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.

Impact path

Runtime spend → infra stack

Signals to watch

Procurement language around audit logs and cost ceilings
Security and observability vendors attaching agent controls
Workflow platforms exposing approval and tool-call governance

Verification schedule

D+1 · Jun 15

Do buyers repeat audit/cost-control requirements?

D+3 · Jun 17

Do vendors publish runtime-control SKUs or partnerships?

D+7 · Jun 21

Do budgets move from pilots into operating infrastructure?

Informational context only — not investment, legal, tax, or financial advice.

Set profile for personalized briefings

◆

視覺簡報

A simple comparison of how search agents and computer-control agents differ in autonomy and workflow depth.

更正与安全

See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.

Report a correction, privacy, rights, or safety issue

#AI#開發者

◆

AI 代理自主性研究顯示，電腦控制會話比搜尋長 47 倍

Agent runtime spending can spill into security, observability, and workflow infrastructure

Impact path

Signals to watch

Verification schedule

自主運作時間的差異

任務完成時間的縮短

知識工作的重組

營運與設計含義

不確定性與限制

未來研究方向

構建者啟示

Agent runtime spending can spill into security, observability, and workflow infrastructure

Impact path

Signals to watch

Verification schedule

視覺簡報

更多報導

Meta 的 AI 轉向進入商業考驗：最難的是推銷這項策略

Carney 的 AI 依賴警示使模型存取與採購韌性成為焦點

Anthropic 在政府指令後切斷對 Fable 5 與 Mythos 5 的存取，凸顯 AI 部署與合規之間的關係