KI
In Entwicklung · 0 UpdatesFact 9/10Studie zur Autonomie von KI-Agenten zeigt, dass Computersteuerungs-Sitzungen 47-mal länger sind als Suchsitzungen
Artikelsprache
Deutsch
Ein arXiv-Paper, das Produktionsdaten von Perplexitys Such- und Computersteuerungs-Agenten analysiert, berichtet, dass Computersteuerungs-Sitzungen im Durchschnitt 26 Minuten autonom liefen, gegenüber 33 Sekunden bei Suchsitzungen, während die Zeit für vergleichbare Aufgaben von 269 auf 36 Minuten sank.
Open article · no sign-in required
Quellen und Offenlegung
The article accurately summarizes the findings of the arXiv paper, including specific numerical data on autonomous operation time and task completion time for Perplexity's search and computer-control agents. All calculations and comparisons are consistent with the provided source material. The article maintains a neutral and informative tone.
Market lens
Agent runtime spending can spill into security, observability, and workflow infrastructure
The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.
Impact path
Runtime spend → infra stack
Signals to watch
- Procurement language around audit logs and cost ceilings
- Security and observability vendors attaching agent controls
- Workflow platforms exposing approval and tool-call governance
Verification schedule
D+1 · Jun 15
Do buyers repeat audit/cost-control requirements?
D+3 · Jun 17
Do vendors publish runtime-control SKUs or partnerships?
D+7 · Jun 21
Do budgets move from pilots into operating infrastructure?
Informational context only — not investment, legal, tax, or financial advice.
Eine neue Studie zur Messung der Autonomie und Effizienz von KI-Agenten wurde auf Grundlage von Daten aus realen Produktionsumgebungen veröffentlicht. Das auf arXiv erschienene Paper analysiert Nutzungsaufzeichnungen von Perplexitys Such-Agenten und Computersteuerungs-Agenten und bietet einen quantitativen Vergleich dazu, wie sich Autonomie, Aufgabeneffizienz und Aufgabenumfang zwischen den beiden Modalitäten unterscheiden.
Unterschiede in der autonomen Betriebszeit
Den Forschungsergebnissen zufolge arbeiteten Computersteuerungs-Agenten-Sitzungen im Durchschnitt 26 Minuten lang autonom. Dies bezeichnet die Zeit, in der der Agent ohne Benutzereingriff unabhängig arbeitete. Im Gegensatz dazu betrug die durchschnittliche autonome Betriebszeit von Such-Agenten-Sitzungen nur 33 Sekunden. Dieser Unterschied von ungefähr dem 47-Fachen deutet darauf hin, dass die beiden Agententypen unterschiedliche Grade an Benutzereingriff und unterschiedliche Aufgabenkomplexität erfordern.
Such-Agenten sind typischerweise darauf ausgelegt, Antworten auf einzelne Anfragen zu erzeugen und Ergebnisse an Nutzer zurückzugeben. Nutzer interagieren, indem sie die Ergebnisse prüfen, anschließend weitere Anfragen eingeben oder die Sitzung beenden. Diese Struktur führt naturgemäß zu kurzen autonomen Betriebszyklen. Computersteuerungs-Agenten hingegen können Anwendungen auf Betriebssystemebene ausführen, Dateien verarbeiten und mehrstufige Aufgaben nacheinander erledigen. Sie arbeiten so, dass Nutzer zunächst Ziele festlegen und der Agent anschließend Zwischenschritte eigenständig bearbeitet, was zu längeren autonomen Betriebszeiten führt.
Verkürzung der Zeit bis zum Abschluss von Aufgaben
Das Paper berichtet außerdem über Veränderungen bei der Zeit bis zum Abschluss von Aufgaben. Bei vergleichbaren Aufgabentypen benötigten Such-Agenten im Durchschnitt 269 Minuten, während Computersteuerungs-Agenten dieselben Aufgaben im Durchschnitt in 36 Minuten abschlossen. Dies entspricht einer Zeitersparnis von ungefähr 86,6 Prozent und zeigt, dass eine höhere Autonomie von Agenten die Aufgabeneffizienz verbessern kann.
Diese Zeitverkürzung beruht auf mehreren Faktoren. Erstens können Computersteuerungs-Agenten mehrstufige Aufgaben automatisieren, wodurch der Bedarf an Benutzereingriffen in jeder Phase sinkt. Zweitens können Agenten wiederkehrende Aufgaben schnell ausführen und dabei ohne Wartezeiten oder Aufmerksamkeitsverluste kontinuierlich fortfahren. Drittens können Computersteuerungs-Agenten komplexe Arbeitsabläufe mit einem einzigen Befehl ausführen, wodurch Nutzer weniger häufig manuell zwischen Werkzeugen wechseln oder Zwischenergebnisse verwalten müssen.
Neuordnung wissensbasierter Arbeit
Diese Forschung liefert empirische Evidenz dafür, wie KI-Agenten die Struktur wissensbasierter Arbeit verändern. Traditionell umfasst wissensbasierte Arbeit Phasen wie Informationsbeschaffung, Analyse, Entscheidungsfindung und Ausführung, wobei in jeder Phase menschliches Urteilsvermögen und Eingreifen erforderlich sind. Such-Agenten unterstützen vor allem die Phase der Informationsbeschaffung, während die übrigen Phasen den Nutzern überlassen bleiben. Computersteuerungs-Agenten hingegen haben das Potenzial, den gesamten Arbeitsablauf von der Informationsbeschaffung bis zur Ausführung zu automatisieren.
Eine erhöhte Autonomie steht auch mit einem erweiterten Aufgabenbereich in Verbindung. Such-Agenten sind vor allem auf Informationsbereitstellung beschränkt, während Computersteuerungs-Agenten ein breiteres Spektrum an Aufgaben ausführen können, darunter Dokumentenerstellung, Datenverarbeitung, Softwareausführung und Systemadministration. Dies deutet darauf hin, dass sich Agenten von einfachen Werkzeugen zu kollaborativen Partnern entwickeln.
Operative und gestalterische Implikationen
Diese auf Produktionsdaten basierende Studie bietet wichtige Implikationen für das Design und den Einsatz von KI-Agenten. Erstens wird ein Zusammenhang zwischen Autonomie und Effizienz beobachtet. Je länger ein Agent unabhängig arbeiten kann, desto kürzer fällt tendenziell die gesamte Aufgabenzeit aus. Das bedeutet, dass Autonomie als zentrale Kennzahl im Agentendesign betrachtet werden kann.
Zweitens variieren geeignete Agentenarchitekturen je nach Aufgabentyp. Für einfache Frage-Antwort-Aufgaben oder Informationssuche genügen Such-Agenten, während Computersteuerungs-Agenten für komplexe Arbeitsabläufe oder mehrstufige Aufgaben geeigneter sein können. Produktdesigner können die Merkmale der Nutzeraufgaben analysieren, um den passenden Agententyp auszuwählen.
Drittens stellen hochautonome Agenten auch höhere Anforderungen an Zuverlässigkeit und Sicherheit. Ein Agent, der 26 Minuten lang unabhängig arbeitet, muss in der Lage sein, Fehler, Ausnahmesituationen und Sicherheitsrisiken zu bewältigen, die in dieser Zeit auftreten können. Das bedeutet, dass Fehlerbehandlung, Zustandsüberwachung und Sicherheitsmechanismen im Agentendesign wichtig sind.
Viertens wirkt sich eine höhere Autonomie auch auf das Design der Nutzererfahrung aus. In kurzen Suchsitzungen ist unmittelbares Feedback wichtig, während in langen autonomen Sitzungen Schnittstellen für Fortschrittsanzeige, Prüfung von Zwischenergebnissen und Eingriffe bei Bedarf erforderlich sind. Transparenz und Kontrollierbarkeit müssen bereitgestellt werden, damit Nutzer während längerer Betriebszeiten des Agenten andere Aufgaben mit Vertrauen ausführen können.
Fünftens unterscheiden sich auch die Kostenstrukturen. Ein Agent, der 26 Minuten läuft, verbraucht mehr Rechenressourcen als einer, der 33 Sekunden läuft. Wenn jedoch die gesamte Aufgabenzeit von 269 auf 36 Minuten sinkt, kann die Kosteneffizienz im Lichte der Zeitersparnis und Produktivitätsgewinne der Nutzer bewertet werden. Betreiber müssen die Ausführungskosten des Agenten umfassend gegen die Produktivitätsverbesserungen der Nutzer abwägen.
Unsicherheiten und Einschränkungen
Obwohl diese Studie aufgrund der Verwendung tatsächlicher Produktionsdaten bedeutsam ist, bestehen mehrere Einschränkungen. Erstens lassen sich allein aus den veröffentlichten Metadaten die konkreten Aufgabentypen, Erfolgsraten oder die Nutzerzufriedenheit nur schwer bestimmen. Ob Agenten, die 26 Minuten lang liefen, Aufgaben tatsächlich erfolgreich abschlossen oder zwischendurch auf Fehler stießen, bleibt unklar.
Zweitens ist ungewiss, ob die Nutzerbasis und die Aufgabenmerkmale von Perplexity allgemeine wissensbasierte Arbeit repräsentieren. Daten von bestimmten Plattformen können durch die Nutzereigenschaften, das Schnittstellendesign und die Aufgabentypen dieser Plattform beeinflusst sein. Der Zusammenhang zwischen autonomer Betriebszeit und Effizienz kann in anderen Domänen oder Nutzergruppen anders ausfallen.
Drittens ist der Zusammenhang zwischen autonomer Betriebszeit und Zeit bis zum Abschluss von Aufgaben möglicherweise nicht linear. Einige Aufgaben können lange autonome Betriebszeiten erfordern, aber kurze Gesamtabschlusszeiten haben, und umgekehrt. Zur Klärung des kausalen Zusammenhangs zwischen diesen beiden Kennzahlen sind weitere Analysen erforderlich.
Viertens handelt es sich bei den im Paper berichteten Werten um Durchschnittswerte, sodass die Variabilität oder Verteilungsmerkmale einzelner Sitzungen unbekannt bleiben. Einige Computersteuerungs-Sitzungen könnten innerhalb von Minuten abgeschlossen worden sein, während andere Stunden gedauert haben könnten. Diese Variabilität könnte wichtige Informationen für das Agentendesign und den Betrieb liefern.
Zukünftige Forschungsrichtungen
Diese Studie präsentiert eine Methodik zur Messung von Autonomie und Effizienz von KI-Agenten, lässt jedoch mehrere Anschlussfragen offen. Erstens: Wie verhält sich die autonome Betriebszeit zur Erfolgsrate von Aufgaben? Es muss bestimmt werden, ob lange autonome Betriebszeiten immer hohe Erfolgsraten bedeuten oder ob die Fehlerwahrscheinlichkeit jenseits bestimmter Schwellenwerte steigt.
Zweitens: Welche Aufgabenmerkmale erfordern lange autonome Betriebszeiten? Die Analyse, wie sich Aufgabenkomplexität, Anzahl der Schritte und Unsicherheitsgrade auf die autonome Betriebszeit auswirken, könnte das Agentendesign und die Aufgabenverteilung optimieren.
Drittens: Wie erleben Nutzer lange autonome Betriebszeiten? Zu verstehen, was Nutzer während 26 Minuten Agentenbetrieb tun, welche Informationen sie wünschen und wann sie eingreifen möchten, könnte ein besseres Design der Benutzeroberfläche ermöglichen.
Viertens: Wo liegt der Ausgleichspunkt zwischen Autonomie und Kontrollierbarkeit? Hohe Autonomie erhöht die Effizienz, kann jedoch die Fähigkeit der Nutzer einschränken, das Verhalten des Agenten zu verstehen und bei Bedarf einzugreifen. Die Suche nach dem optimalen Gleichgewicht ist wichtig.
Implikationen für Builder
- Machen Sie Autonomie zu einem zentralen Designziel, differenzieren Sie jedoch die angestrebten autonomen Betriebszeiten nach Aufgabentyp. Entwickeln Sie Architekturen, die kurze autonome Zyklen für einfache Aufgaben und lange autonome Zyklen für komplexe Arbeitsabläufe unterstützen. Funktionen für die Automatisierung mehrstufiger Arbeitsabläufe, Ausnahmebehandlung und Zustandsverwaltung können die autonome Betriebszeit verlängern.
- Bauen Sie eine Zuverlässigkeitsinfrastruktur für lange autonome Betriebszeiten auf. Entwerfen Sie Fehlerbehebung, Fortschrittsüberwachung, sichere Unterbrechungsmechanismen und Benachrichtigungssysteme für Nutzer, damit Agenten lange Aufgaben zuverlässig ausführen können. Messen und verbessern Sie in Produktionsumgebungen kontinuierlich die autonome Betriebszeit, Erfolgsraten und die Häufigkeit von Benutzereingriffen. Insbesondere bei Sitzungen mit einer Laufzeit von mehr als 20 Minuten sollten Zwischenprüfpunkte und Rollback-Funktionen bereitgestellt werden, damit Fehler nicht dazu führen, dass gesamte Aufgaben von Beginn an neu gestartet werden müssen.
- Gestalten Sie Benutzeroberflächen, die sowohl Autonomie als auch Transparenz bieten. Stellen Sie bei langen autonomen Sitzungen Echtzeit-Fortschrittsanzeigen, die Prüfung von Zwischenergebnissen und Steuerungsfunktionen für Eingriffe bei Bedarf bereit. Sorgen Sie für Transparenz, damit Nutzer das Verhalten des Agenten verstehen und ihm vertrauen können, ohne sie jedoch durch übermäßige Benachrichtigungen zu stören. Implementieren Sie selektive Benachrichtigungsstrategien, die Nutzer nur dann informieren, wenn Agenten wichtige Entscheidungen treffen oder auf unerwartete Situationen stoßen.
Want follow-up alerts? Subscribe by email after reading the public article.
Market lens
Agent runtime spending can spill into security, observability, and workflow infrastructure
The market signal is not another chatbot category; it is a possible budget shift toward the control layer around enterprise AI.
Impact path
Runtime spend → infra stack
Signals to watch
- Procurement language around audit logs and cost ceilings
- Security and observability vendors attaching agent controls
- Workflow platforms exposing approval and tool-call governance
Verification schedule
D+1 · Jun 15
Do buyers repeat audit/cost-control requirements?
D+3 · Jun 17
Do vendors publish runtime-control SKUs or partnerships?
D+7 · Jun 21
Do budgets move from pilots into operating infrastructure?
Informational context only — not investment, legal, tax, or financial advice.
Visuelles Briefing
A simple comparison of how search agents and computer-control agents differ in autonomy and workflow depth.
Korrekturen und Sicherheit
See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.