Voyager

Idee:

Ergebnisse:

Architektur: (ist in 3 Hauptkomponenten aufgeteilt)

  1. Automatic Curriculum
    • wie ein intelligenter Aufgabenplaner, der dem Agent immer neue Aufgaben vorschlägt
    • wird durch GPT-4 generiert, Ziel ist so viele Dinge wie möglich zu entdecken (bottom up Ansatz -> beginnt mit einfachen Aufgaben zu komplexeren)
    • es werden Sachen wie das aktuelle Inventar, die Umgebung und bisher abgeschlossene/fehlgeschlagene Aufgaben berücksichtigt
    • Ziel ist es Voyager neugierig zu machen um somit den Fortschritt zu treiben
  2. Fähigkeitenbibliothek (Skill Library):
    • ist wie ein Gedächtnis für Voyager, speichert ausführbaren Code, der gelernt wurde
    • jede Fähigkeit wird als Programm gespeichert (enthält Reihe von Aktionen)
    • Wenn Agent neue Aufgabe erhält, durchsucht er die Bibliothek
    • Aus einfachen Fähigkeiten, können neue komplexe geschaffen werden
    • unverzichtbar für das ‘lebenslange’ lernen, weil es das Vergessen verhindert
  3. Iterativer Prompting-Mechanismus:
    • ermöglicht dem Agent die Coding-Skills iterativ zu verbessern, GPT-4 generiert Code um die Ausgabe aus dem Curriculum zu lösen
    • Code wird in Minecraft ausgeführt und das Feedback (was passiert in Minecraft) an den Agenten zurückgegeben
    • Umgebungsfeedback: Zwischenfortschritt der Programmausführung (bspw. ” kann keine Eisenrüstung herstellen, weil 7 Eisenbarren fehlen”), Agent verwendet die Chat-Funktion des Bots, um dieses Feedback zu erstellen und wird angewiesen diese Funktion auch bei der Codegenerierung zukünftig zu verwenden
    • Ausführungsfehler: gefundene Fehler, vom Code-Interpreter (fehlerhafte Operationen, Syntaxfehler)
    • Selbstverifizierung: weiterer GPT-4-Agent prüft ob Aufgabe erfolgreich erledigt wurde (bei Fehler wird Kritik generiert, die erklärt, was schiefgelaufen ist und wie die Aufgabe korrekt ausgeführt werden kann)

Relevanz:

Verwandte Arbeiten:

Offene Fragen:

Weitere Notizen:

Source: