Idee:
- schlägt CoALA (Cognitive Architectures for Language Agents) vor, ein Rahmenwerk für den Entwurf und die Analyse von Sprachagenten
- CoALA organisiert Sprachagenten anhand von Speicher, Handlungsraum und Entscheidungsprozessen, um die aktuelle Forschung zu strukturieren und zukünftige Entwicklungen zu planen
- verbindet Konzepte der kognitiven Wissenschaft und symbolischen KI mit aktuellen Fortschritten in LLMs
Ergebnisse:
- Modulare Architektur: Sprachagenten sollten modular aufgebaut sein (Speicher, Handlungen, Entscheidungsprozesse)
- LLMs als Kern: LLMs sind der Kern der Agenten, interagieren mit internen und externen Elementen
- Text als interne Repräsentation: Text ist die primäre interne Darstellungsform
- Handlungsraum: Interne (Speicherzugriffe, Reasoning) und externe Handlungen (Umweltinteraktion)
- Entscheidungsfindung: Planung und Ausführung von Handlungen in iterativen Zyklus
Architektur (CoALA): Speicher:
- Arbeitsspeicher: Kurzfristige Informationen, Wahrnehmungen, Ziele, LLM Kontext
- Langzeitspeicher:
- Episodisch: Vergangene Erfahrungen, Verhaltenssequenzen
- Semantisch: Weltwissen, Fakten
- Prozedural: Agentencode, LLM-Gewichte Handlungsraum:
- Externe Handlungen (Grounding): Interaktion mit der Umgebung
- Physikalische Umgebung: Robotik, Wahrnehmung -> Text
- Dialog: Interaktion mit Menschen/Agenten
- Digitale Umgebung: Spiele, APIs, Webseiten
- Interne Handlungen: Zugriff auf/Manipulation von Speichern
- Retrieval (Abruf): Lesen aus dem Langzeitspeicher
- Reasoning (Schlussfolgern): Aktualisieren des Arbeitsspeichers mit LLM
- Learning (Lernen): Schreiben in den Langzeitspeicher Entscheidungsprozess:
- Planung: Reasoning und Retrieval um Aktionen vorzuschlagen und zu bewerten
- Proposal: Generierung von Aktionskandidaten
- Evaluation: Bewertung der vorgeschlagenen Aktionen
- Selection: Auswahl einer Aktion zur Ausführung
- Ausführung: ausgewählte Aktion wird durchgeführt
- Interaktion mit externer Umgebung oder aktualisieren von Langzeitspeichern
- Iterativer Zyklus: Agenten durchlaufen diese Entscheidungsschritte wiederholt
Relevanz:
- CoALA bietet einheitliche Terminologie und Framework für Sprachagenten
- hilft dabei Agenten zu vergleichen/ zu verstehen
- Identifiziert unterentwickelte Bereiche und leitet zukünftige Forschung
- schlägt vor, Code sparsam zu verwenden, um generische Algorithmen zu implementieren, die die Einschränkungen von LLMs ergänzen (Anstatt Code zu erstellen, der alle Aspekte der Aufgabe eines Agenten übernimmt, ist es besser, Code zur Verwaltung von Aufgaben wie Speicher und Entscheidungsfindung zu verwenden und das LLM zum Generieren von Text zu verwenden)
Verwandte Arbeiten:
- baut auf früheren Forschungen zu Produktionssystemen und kognitiven Architekturen auf
- geht über die Prompt-Manipulation hinaus und schlägt strukturierte Reasoning Prozesse zur Aktualisierung von Variablen im Arbeitsspeicher vor
Offene Fragen:
- Multimodales Reasoning: Sollte die Entscheidungsfindung sprachbasiert oder multimodal erfolgen?
- Agenten-Umwelt-Grenze: Was ist der Unterschied zwischen intern und extern bei digitalen Agenten?
- Kontinuierliches Lernen: Wie sollten Agenten autonom lernen und dieses Lernen im Entscheidungsfindungsprozess berücksichtigen?
- Zukünftige LLMs: Wie werden leistungsfähigere LLMs die Agentenarchitektur verändern?
Weitere Notizen:
- Produktionssysteme: Regelbasierte Systeme mit Vorbedingungen und Aktionen zur String Manipulation
- Kognitive Architekturen: Systeme die Wahrnehmung, Erinnerung und Planung modellieren
- Grounding: Verbindung von Sprachagenten mit externen Faktoren
- Episodic Memory: Speichert Erfahrungen als Folge von Ereignissen
- Semantic Memory: Speichert Fakten über die Welt
- Procedural Memory: Speichert Fähigkeiten und das Wissen, wie man etwas tut
- Working Memory: Arbeitsspeicher behält Informationen bei, die für Entscheidungsfindung wichtig sind
- Action Space: Umfasst alle möglichen Aktionen, die Agent durchführen kann, einschliesslich interner und externer Operationen
- Decision Making: Entscheidungsprozess beinhaltet die Planung, Bewertung und Auswahl von Aktionen in einem Zyklus
Source: