Idee:
- eine Methode für Agents, die aus vergangenen Erfahrungen lernen, um wiederverwendbare Arbeitsabläufe (Workflows) zu extrahieren
- Workflows werden im Agent Gedächtnis gespeichert, um zukünftige Aufgaben effizienter zu lösen
- AWM ist inspiriert von der Art und Weise, wie Menschen aus Erfahrungen lernen (wiederkehrende Routinen abstrahieren und diese auf neue Aufgaben anwenden)
- Ziel sind Agents, die sich kontinuierlich verbessern und an veränderte Kontexte anpassen können
Ergebnisse:
- AWM verbessert die Erfolgsrate von Web-Navigationsaufgaben erheblich:
- 51,1% relative Verbesserung auf WebArena
- 24,6% relative Verbesserung auf Mind2Web
- Reduziert Anzahl der Schritte, um Aufgaben zu lösen
- generalisiert gut über verschiedene Aufgaben, Websites und Domänen
- Offline- als auch Online-Szenarien sind möglich
- Offline: Workflows werden aus Trainingsdaten gelernt
- Online: Workflows werden laufend aus den Ergebnissen des Agenten gelernt
- AWM lernt schnell aus wenigen Beispielen, wobei die Leistung nach nur wenigen Dutzend Beispielen deutlich steigt
- AWM übertrifft Methoden, die auf von Menschen erstellten Workflows basieren
Architektur:
- Grundlage: ein LM und ein textbasiertes Gedächtnis, das Gedächtnis hat grundlegende Aktionen wie “KLICK” oder “EINGABE”
- Workflow:
- Textbeschreibung: natürliche Sprachbeschreibung des Workflow-Ziels
- Workflow-Trajektorie: Reihe von Schritten (p1, …) die den Workflow ausführen
- Jeder Schritt (p) besteht aus:
- Beschreibung des aktuellen Umweltzustands in natürlicher Sprache
- Begründung des Agenten: welche Aktion auf Basis der Beobachtung generiert werden soll (bspw. ‘Weil eine OrderId gefunden werden konnte, mache ich x)
- auszuführende Aktion (z.B. stop())
- Workflow Inducing Module: lernt Workflows aus Erfahrungen, die jeweils eine natürliche Sprachinstruktion und eine Trajektorie der Aktionen enthalten:
- LM-basiert: nutzt das LM, um allgemeine Subroutinen aus Erfahrungen zu extrahieren
- Abstraktion: ersetzt konkrete Werte (z.B. Produktnamen) durch allgemeine Variablen
- Offline-AWM: Workflows werden vor der Testzeit aus Trainingsdaten induziert
- Online-AWM: Workflows werden laufend aus eigenen erfolgreichen Testläufen induziert und dem Gedächtnis hinzugefügt (Erfolg der Testläufe wird durch separates Evaluationsmodul bestimmt)
- Gedächtnisaktualisierung: Workflows werden dem Agentengedächtnis als zusätzliche Informationen hinzugefügt
- Aktionsauswahl: Agent wählt Aktionen unter Berücksichtigung der ursprünglichen Erinnerung und zusätzlichen Workflows
Relevanz:
- adressiert das Problem der fehlenden Robustheit von Agents bei komplexen Aufgaben in veränderlichen Umgebungen (Fähigkeit, sich an veränderte Aufgaben/ Domänen anzupassen, ist großer Fortschritt)
- Fähigkeit wiederverwendbare Routinen zu lernen und zu nutzen, führt zu effizienteren und erfolgreicheren Agents
- Online-Lernfähigkeit ermöglicht es, ohne zusätzliche Trainingsdaten zu arbeiten und trotzdem zu generalisieren
Verwandte Arbeiten:
- AWM unterscheidet sich von Methoden, die konkrete Beispiele im Kontext verwenden
- Im Vergleich zu Methoden mit menschengeschriebenen Workflows ist AWM flexibler und effektiver
- AWM verwendet abstrahierte Subroutinen, was zu besseren Generalisierung führt als die Verwendung konkreter Sequenzen
- AWM ist nicht auf bestimmte Umgebungen oder Aufgaben beschränkt und kann in verschiedenen digitalen Umgebungen funktionieren
Offene Fragen:
- Wie können Agenten besser lernen, von Workflow-Richtlinien abzuweichen, wenn dies erforderlich ist?
- Wie kann die Nutzung von Workflow-Aktionen verbessert werden? (Agents zögern Workflow-Aktionen zu nutzen)
- Wie können dynamische Umweltveränderungen besser in die Workflow-Ausführung integriert werden
- Sind andere Workflow-Darstellungen (neben Text oder Code) vorteilhafter
Weitere Notizen:
- Trajektorie: Sequenz von Schritten/Aktionen, die Agent durchführt um Aufgabe zu lösen
- WebArena und Mind2Web: Benchmarks zur Bewertung von Web-Navigationsagenten
- LM-basiert vs. Regelbasiert: LM-basiert verwendet das Sprachmodell, regelbasiert definiert Regeln zum Auffinden von Workflows
Source: