Verbesserte LLM-Leistung bei langem Kontext:
- Dokumentenanalyse großer Textmengen über Kontextfenstergrenzen hinaus
- Konversationsagenten mit Konsistenz und Langzeitgedächtnis
Übertrifft Fixed-Context-Baselines bei:
- Deep Memory Retrieval (DMR)
- Erzeugt engagiertere Gesprächseröffnungen als Menschen
- Document QA mit mehreren Dokumenten
- Nested Key-Value Retrieval Aufgaben

Speicherhierarchie:

Hauptkontext (RAM-Analogie):
- Systemanweisungen: Schreibgeschützt, steuert MemGPT
- Arbeitskontext: Lese-/Schreibzugriff für Benutzer-/Agentendaten
- FIFO-Warteschlange: Nachrichtenverlauf mit Systemmeldungen/Funktionsaufrufen
Externer Kontext (Festplatten-Analogie):
- Recall-Speicher: Nachrichtendatenbank
- Archivspeicher: Lese-/Schreibfähige Datenbank für Textobjekte

Systemkomponenten

Queue Manager:
- Fügt neue Nachrichten zur FIFO-Warteschlange hinzu
- Löst LLM-Inferenz aus
- Steuert Context Overflow durch Löschungsrichtlinie
- Memory Pressure Warning bei Token-Überschreitung
- Queue Flush bei vollem Kontextfenster
Function Executor:
- Orchestriert Datenbewegung zwischen Haupt- und externem Kontext
- Ermöglicht Speicheraktualisierung/-suchen
Kontrollfluss und Funktionsverkettung:
- Ereignisse starten LLM-Denkprozess
- Mehrere Funktionen können vor Nutzerantwort verkettet werden

Anwendung auf andere Domänen mit massiven/unbegrenzten Kontexten
Integration verschiedener Speichertechnologien (Datenbanken, Caches)
Optimierungspotentiale:
- Kontrollfluss und Speicherverwaltung
- Dokumentenanalyse (aktuell auf Embedding-Methoden beschränkt)
- Suche im Kontext und effizientere Dokumentendurchsuchung

Weitere Notizen

Ermöglichen natürliche, langfristige Nutzerinteraktionen (Wochen bis Jahre)
Kernaspekte für ‘unendlichen Kontext’:
- Konsistenz: Kohärente Gespräche, Integration neuer mit vorherigen Informationen
- Engagement: Nutzung von Langzeitwissen für Personalisierung

MemGpt