Agent Workflow Memory

Idee:

eine Methode für Agents, die aus vergangenen Erfahrungen lernen, um wiederverwendbare Arbeitsabläufe (Workflows) zu extrahieren
Workflows werden im Agent Gedächtnis gespeichert, um zukünftige Aufgaben effizienter zu lösen
AWM ist inspiriert von der Art und Weise, wie Menschen aus Erfahrungen lernen (wiederkehrende Routinen abstrahieren und diese auf neue Aufgaben anwenden)
Ziel sind Agents, die sich kontinuierlich verbessern und an veränderte Kontexte anpassen können

Ergebnisse:

AWM verbessert die Erfolgsrate von Web-Navigationsaufgaben erheblich:
- 51,1% relative Verbesserung auf WebArena
- 24,6% relative Verbesserung auf Mind2Web
Reduziert Anzahl der Schritte, um Aufgaben zu lösen
generalisiert gut über verschiedene Aufgaben, Websites und Domänen
Offline- als auch Online-Szenarien sind möglich
- Offline: Workflows werden aus Trainingsdaten gelernt
- Online: Workflows werden laufend aus den Ergebnissen des Agenten gelernt
AWM lernt schnell aus wenigen Beispielen, wobei die Leistung nach nur wenigen Dutzend Beispielen deutlich steigt
AWM übertrifft Methoden, die auf von Menschen erstellten Workflows basieren

Architektur:

Grundlage: ein LM und ein textbasiertes Gedächtnis, das Gedächtnis hat grundlegende Aktionen wie “KLICK” oder “EINGABE”
Workflow:
- Textbeschreibung: natürliche Sprachbeschreibung des Workflow-Ziels
- Workflow-Trajektorie: Reihe von Schritten (p1, …) die den Workflow ausführen
- Jeder Schritt (p) besteht aus:
  - Beschreibung des aktuellen Umweltzustands in natürlicher Sprache
  - Begründung des Agenten: welche Aktion auf Basis der Beobachtung generiert werden soll (bspw. ‘Weil eine OrderId gefunden werden konnte, mache ich x)
  - auszuführende Aktion (z.B. stop())
Workflow Inducing Module: lernt Workflows aus Erfahrungen, die jeweils eine natürliche Sprachinstruktion und eine Trajektorie der Aktionen enthalten:
- LM-basiert: nutzt das LM, um allgemeine Subroutinen aus Erfahrungen zu extrahieren
- Abstraktion: ersetzt konkrete Werte (z.B. Produktnamen) durch allgemeine Variablen
Offline-AWM: Workflows werden vor der Testzeit aus Trainingsdaten induziert
Online-AWM: Workflows werden laufend aus eigenen erfolgreichen Testläufen induziert und dem Gedächtnis hinzugefügt (Erfolg der Testläufe wird durch separates Evaluationsmodul bestimmt)
Gedächtnisaktualisierung: Workflows werden dem Agentengedächtnis als zusätzliche Informationen hinzugefügt
Aktionsauswahl: Agent wählt Aktionen unter Berücksichtigung der ursprünglichen Erinnerung und zusätzlichen Workflows

Relevanz:

adressiert das Problem der fehlenden Robustheit von Agents bei komplexen Aufgaben in veränderlichen Umgebungen (Fähigkeit, sich an veränderte Aufgaben/ Domänen anzupassen, ist großer Fortschritt)
Fähigkeit wiederverwendbare Routinen zu lernen und zu nutzen, führt zu effizienteren und erfolgreicheren Agents
Online-Lernfähigkeit ermöglicht es, ohne zusätzliche Trainingsdaten zu arbeiten und trotzdem zu generalisieren

Verwandte Arbeiten:

AWM unterscheidet sich von Methoden, die konkrete Beispiele im Kontext verwenden
Im Vergleich zu Methoden mit menschengeschriebenen Workflows ist AWM flexibler und effektiver
AWM verwendet abstrahierte Subroutinen, was zu besseren Generalisierung führt als die Verwendung konkreter Sequenzen
AWM ist nicht auf bestimmte Umgebungen oder Aufgaben beschränkt und kann in verschiedenen digitalen Umgebungen funktionieren

Offene Fragen:

Wie können Agenten besser lernen, von Workflow-Richtlinien abzuweichen, wenn dies erforderlich ist?
Wie kann die Nutzung von Workflow-Aktionen verbessert werden? (Agents zögern Workflow-Aktionen zu nutzen)
Wie können dynamische Umweltveränderungen besser in die Workflow-Ausführung integriert werden
Sind andere Workflow-Darstellungen (neben Text oder Code) vorteilhafter

Weitere Notizen:

Trajektorie: Sequenz von Schritten/Aktionen, die Agent durchführt um Aufgabe zu lösen
WebArena und Mind2Web: Benchmarks zur Bewertung von Web-Navigationsagenten
LM-basiert vs. Regelbasiert: LM-basiert verwendet das Sprachmodell, regelbasiert definiert Regeln zum Auffinden von Workflows

Source: