Idee
- LLM-System mit hierarchischem Speichersystem zur Kontextfensterverwaltung
- Erzeugt Illusion eines größeren Kontexts als native LLMs
- Virtuelles Kontextmanagement analog zu Paging in Betriebssystemen
Ergebnisse
- Verbesserte LLM-Leistung bei langem Kontext:
- Dokumentenanalyse großer Textmengen über Kontextfenstergrenzen hinaus
- Konversationsagenten mit Konsistenz und Langzeitgedächtnis
- Übertrifft Fixed-Context-Baselines bei:
- Deep Memory Retrieval (DMR)
- Erzeugt engagiertere Gesprächseröffnungen als Menschen
- Document QA mit mehreren Dokumenten
- Nested Key-Value Retrieval Aufgaben
Architektur
Speicherhierarchie:
- Hauptkontext (RAM-Analogie):
- Systemanweisungen: Schreibgeschützt, steuert MemGPT
- Arbeitskontext: Lese-/Schreibzugriff für Benutzer-/Agentendaten
- FIFO-Warteschlange: Nachrichtenverlauf mit Systemmeldungen/Funktionsaufrufen
- Externer Kontext (Festplatten-Analogie):
- Recall-Speicher: Nachrichtendatenbank
- Archivspeicher: Lese-/Schreibfähige Datenbank für Textobjekte
Systemkomponenten
- Queue Manager:
- Fügt neue Nachrichten zur FIFO-Warteschlange hinzu
- Löst LLM-Inferenz aus
- Steuert Context Overflow durch Löschungsrichtlinie
- Memory Pressure Warning bei Token-Überschreitung
- Queue Flush bei vollem Kontextfenster
- Function Executor:
- Orchestriert Datenbewegung zwischen Haupt- und externem Kontext
- Ermöglicht Speicheraktualisierung/-suchen
- Kontrollfluss und Funktionsverkettung:
- Ereignisse starten LLM-Denkprozess
- Mehrere Funktionen können vor Nutzerantwort verkettet werden
Relevanz
- Begrenzte Kontextfenster als Herausforderung für viele Anwendungen
- Exponentieller Anstieg von Rechenzeit/Speicherbedarf bei Kontexterweiterung
- Alternativer Ansatz ohne Modelarchitekturänderung
- Löst ineffektive Kontextnutzung
- Demonstriert OS-Prinzipien in KI-Systemen
Verwandte Arbeiten
- Baut auf Kontextlängen-Erweiterungen auf
- Integriert Retrieval-Augmented Models (RAM)
- Nutzt LLM-Funktionsaufrufe statt externer Tools für Speicherverwaltung
- Bietet vollständigen statt zusammengefassten Zugriff auf Konversationshistorie
Offene Fragen
- Anwendung auf andere Domänen mit massiven/unbegrenzten Kontexten
- Integration verschiedener Speichertechnologien (Datenbanken, Caches)
- Optimierungspotentiale:
- Kontrollfluss und Speicherverwaltung
- Dokumentenanalyse (aktuell auf Embedding-Methoden beschränkt)
- Suche im Kontext und effizientere Dokumentendurchsuchung
Weitere Notizen
Conversion Agents
- Ermöglichen natürliche, langfristige Nutzerinteraktionen (Wochen bis Jahre)
- Kernaspekte für ‘unendlichen Kontext’:
- Konsistenz: Kohärente Gespräche, Integration neuer mit vorherigen Informationen
- Engagement: Nutzung von Langzeitwissen für Personalisierung
Fixed Context Baselines
- Vergleichsmethoden zu MemGPT
- Zeigen LLM-Leistung mit begrenzten Kontextfenstern
- Keine zusätzlichen Speichermechanismen
- Verlieren Informationen außerhalb des Kontextrahmens
Deep Memory Retrieval (DMR)
- Test für Konversationsagenten-Konsistenz
- Prüft Antworten zu früheren Konversationen
- MemGPT zeigt deutlich bessere Leistung als Fixed-Context-Baselines
Nested Key-Value Retrieval
- Test für Informationssammlung aus mehreren Quellen
- Werte können selbst Schlüssel sein (erfordert mehrere Suchvorgänge)
- Prüft Multihop-Lookup-Fähigkeit
- Fixed-Context-Baselines haben Probleme bei tieferen Verschachtelungen
- MemGPT löst durch iterative SpeicheranfragenÏ