Cognitive Architectures for Language Agents

Idee:

schlägt CoALA (Cognitive Architectures for Language Agents) vor, ein Rahmenwerk für den Entwurf und die Analyse von Sprachagenten
CoALA organisiert Sprachagenten anhand von Speicher, Handlungsraum und Entscheidungsprozessen, um die aktuelle Forschung zu strukturieren und zukünftige Entwicklungen zu planen
verbindet Konzepte der kognitiven Wissenschaft und symbolischen KI mit aktuellen Fortschritten in LLMs

Ergebnisse:

Modulare Architektur: Sprachagenten sollten modular aufgebaut sein (Speicher, Handlungen, Entscheidungsprozesse)
LLMs als Kern: LLMs sind der Kern der Agenten, interagieren mit internen und externen Elementen
Text als interne Repräsentation: Text ist die primäre interne Darstellungsform
Handlungsraum: Interne (Speicherzugriffe, Reasoning) und externe Handlungen (Umweltinteraktion)
Entscheidungsfindung: Planung und Ausführung von Handlungen in iterativen Zyklus

Architektur (CoALA): Speicher:

Arbeitsspeicher: Kurzfristige Informationen, Wahrnehmungen, Ziele, LLM Kontext
Langzeitspeicher:
- Episodisch: Vergangene Erfahrungen, Verhaltenssequenzen
- Semantisch: Weltwissen, Fakten
- Prozedural: Agentencode, LLM-Gewichte Handlungsraum:
Externe Handlungen (Grounding): Interaktion mit der Umgebung
- Physikalische Umgebung: Robotik, Wahrnehmung -> Text
- Dialog: Interaktion mit Menschen/Agenten
- Digitale Umgebung: Spiele, APIs, Webseiten
Interne Handlungen: Zugriff auf/Manipulation von Speichern
- Retrieval (Abruf): Lesen aus dem Langzeitspeicher
- Reasoning (Schlussfolgern): Aktualisieren des Arbeitsspeichers mit LLM
- Learning (Lernen): Schreiben in den Langzeitspeicher Entscheidungsprozess:
Planung: Reasoning und Retrieval um Aktionen vorzuschlagen und zu bewerten
- Proposal: Generierung von Aktionskandidaten
- Evaluation: Bewertung der vorgeschlagenen Aktionen
- Selection: Auswahl einer Aktion zur Ausführung
Ausführung: ausgewählte Aktion wird durchgeführt
- Interaktion mit externer Umgebung oder aktualisieren von Langzeitspeichern
Iterativer Zyklus: Agenten durchlaufen diese Entscheidungsschritte wiederholt

Relevanz:

CoALA bietet einheitliche Terminologie und Framework für Sprachagenten
hilft dabei Agenten zu vergleichen/ zu verstehen
Identifiziert unterentwickelte Bereiche und leitet zukünftige Forschung
schlägt vor, Code sparsam zu verwenden, um generische Algorithmen zu implementieren, die die Einschränkungen von LLMs ergänzen (Anstatt Code zu erstellen, der alle Aspekte der Aufgabe eines Agenten übernimmt, ist es besser, Code zur Verwaltung von Aufgaben wie Speicher und Entscheidungsfindung zu verwenden und das LLM zum Generieren von Text zu verwenden)

Verwandte Arbeiten:

baut auf früheren Forschungen zu Produktionssystemen und kognitiven Architekturen auf
geht über die Prompt-Manipulation hinaus und schlägt strukturierte Reasoning Prozesse zur Aktualisierung von Variablen im Arbeitsspeicher vor

Offene Fragen:

Multimodales Reasoning: Sollte die Entscheidungsfindung sprachbasiert oder multimodal erfolgen?
Agenten-Umwelt-Grenze: Was ist der Unterschied zwischen intern und extern bei digitalen Agenten?
Kontinuierliches Lernen: Wie sollten Agenten autonom lernen und dieses Lernen im Entscheidungsfindungsprozess berücksichtigen?
Zukünftige LLMs: Wie werden leistungsfähigere LLMs die Agentenarchitektur verändern?

Weitere Notizen:

Produktionssysteme: Regelbasierte Systeme mit Vorbedingungen und Aktionen zur String Manipulation
Kognitive Architekturen: Systeme die Wahrnehmung, Erinnerung und Planung modellieren
Grounding: Verbindung von Sprachagenten mit externen Faktoren
Episodic Memory: Speichert Erfahrungen als Folge von Ereignissen
Semantic Memory: Speichert Fakten über die Welt
Procedural Memory: Speichert Fähigkeiten und das Wissen, wie man etwas tut
Working Memory: Arbeitsspeicher behält Informationen bei, die für Entscheidungsfindung wichtig sind
Action Space: Umfasst alle möglichen Aktionen, die Agent durchführen kann, einschliesslich interner und externer Operationen
Decision Making: Entscheidungsprozess beinhaltet die Planung, Bewertung und Auswahl von Aktionen in einem Zyklus

Source: