swe-bench

TLDR

Big Idea: Die Hauptidee ist es, einen realistischen Benchmark für Coding-Aufgaben zu entwickeln, der real-world Software-Engineering-Probleme aus GitHub-Repositories abbildet. Anders als bisherige Coding-Benchmarks, die meist einfache, isolierte Programmieraufgaben umfassen, zielt swe darauf ab, die Fähigkeiten von LLMs in komplexeren, kontextreichen Software-Entwicklungsszenarien zu testen.

Ergebnisse:

Entwicklung eines Benchmarks mit 2.294 realen Software-Engineering-Aufgaben aus 12 Python-Repositories
Extensive Evaluierung zeigt, dass selbst fortschrittliche LLMs nur sehr begrenzt in der Lage sind, diese Aufgaben zu lösen
- Das beste Modell (Claude 2) löst nur 1,96% der Aufgaben
Herausforderungen umfassen:
- Verständnis komplexer Codebasen
- Navigieren durch mehrere Dateien
- Verstehen und Implementieren kontextabhängiger Änderungen

Relevanz: Das Paper ist wichtig, weil es:

Die Grenzen aktueller KI-Modelle in realen Software-Engineering-Kontexten aufzeigt
Einen systematischen Ansatz zur Bewertung von KI-Systemen in komplexen Programmieraufgaben bietet
Die Notwendigkeit weiterer Forschung zur Verbesserung von KI-gestützter Softwareentwicklung unterstreicht

Verwandte Arbeiten: Verbesserungen gegenüber früheren Arbeiten:

Geht über einfache Code-Generierungsaufgaben hinaus
Verwendet echte, komplexe Software-Repositories statt künstlich erstellter Probleme
Bietet einen dynamisch erweiterbaren Benchmark
Ermöglicht eine umfassendere Bewertung von KI-Modellen in realistischen Entwicklungsszenarien

Offene Fragen:

Wie können KI-Modelle besser kontextübergreifende Codeänderungen verstehen?
Welche Architekturen oder Trainingsmethoden könnten die Performance verbessern?
Wie lassen sich Modelle entwickeln, die komplexe Software-Engineering-Aufgaben zuverlässig lösen können?
Wie können Modelle besseres Verständnis für Codestrukturen und -abhängigkeiten entwickeln?
Welche Rolle können Ausführungsumgebungen und Rückmeldungsschleifen beim Lösen von Programmieraufgaben spielen?

Source:

My Notes

Methodik:

Datenbasis:

2.294 reale Software-Probleme
Aus 12 populären Python-Repositories
Quelle: GitHub Pull Requests
Zusätzlicher Trainingsdatensatz: SWE-Bench-Train mit 19.000 Aufgaben

Benchmark-Aufbau:

Dreistufige Qualitätssicherungs-Pipeline
Fokus auf gut gewartete Repositories
Strenge Auswahlkriterien für Aufgaben
Verwendung von Patch-Dateien und Testframeworks zur Bewertung

Retrievalmethoden:

Sparse Retrieval (BM25-Algorithmus)
“Oracle” Retrieval (idealer Vergleichsansatz)

Retrievalmethoden:

Wie sollten große Codebasen gehandhabt werden?

Das grundlegende Problem:

Die Modelle müssen relevante Code-Dateien finden und verstehen
Der Kontext (Code) ist sehr lang und die Anfragen sind in natürlicher Sprache
Es muss also eine Methode gefunden werden, die richtigen Code-Dateien zu identifizieren
Zwei Ansätze werden verglichen:

Sparse Retrieval mit BM25:

Praktischer Ansatz: Verwendet BM25-Algorithmus um relevante Dateien zu finden
Es werden so viele Dateien geladen wie in das Kontextfenster passen
Testergebnis: Modelle arbeiten am besten mit kleinerem Kontextfenster

“Oracle” Retrieval:

Theoretischer/idealer Ansatz: Man weiß bereits vorab, welche Dateien geändert werden müssen
Weniger realistisch, da Entwickler normalerweise nicht im Voraus wissen, welche Dateien betroffen sind
Dient hauptsächlich als Vergleichsmetrik

Vergleich der Ergebnisse:

In 40% der Fälle findet BM25 alle relevanten Dateien und mehr
In fast 50% der Fälle findet BM25 keine der tatsächlich benötigten Dateien
Dies zeigt, dass die automatische Identifizierung relevanter Code-Dateien noch eine große Herausforderung darstellt

Ergebnisse

Allgemeine Performance:

Modelle kämpfen signifikant mit den Aufgaben
Claude 2 (bestes Modell) löst nur 1.96% der Probleme mit BM25 retrieval
Mit “Oracle” retrieval steigt die Performance auf 4.8%

Performance nach Repositories:

Performance variiert zwischen verschiedenen Repositories
Modelle zeigen ähnliche Trends bei verschiedenen Repos
Aber: Die gelösten Aufgaben überlappen sich nicht stark zwischen den Modellen
Beispiel: Claude 2 löst nur 42% der Aufgaben, die SWE-Llama löst

Einfluss der Bildverarbeitung:

Manche Repositories haben viele eingebettete Bilder (z.B. matplotlib: 32%, seaborn: 10%)
Dies erschwert die Aufgabe für text-basierte Modelle
Könnte multimodale LLMs erfordern

Kontextlängen-Analyse:

Performance sinkt mit steigender Kontextlänge
Modelle haben Schwierigkeiten, relevanten Code in großen Kontexten zu lokalisieren
Selbst bei besserem Recall durch größeres Kontextfenster sinkt die Performance

Zeitliche Analyse:

Die Forscher haben analysiert, ob das Erstellungsdatum eines Issues einen Einfluss auf die Lösungsfähigkeit der Modelle hat
Also: Können Modelle ältere Issues besser lösen als neuere? Das Ergebnis:
- Es wurde keine Verbindung zwischen dem Alter eines Issues und der Lösungsfähigkeit gefunden
- Die Modelle lösen alte und neue Issues etwa gleich gut (oder schlecht) Warum ist das wichtig?
- Man könnte vermuten, dass KI-Modelle ältere Issues besser lösen, weil:
  - Diese Issues eventuell in ihren Trainingsdaten waren
  - Sie die Lösungen “auswendig gelernt” haben könnten
- Das Ergebnis zeigt aber: Die Modelle “schummeln” nicht
  - Sie memorisieren nicht einfach bekannte Lösungen
  - Sie versuchen tatsächlich die Probleme zu verstehen und zu lösen
  - Sind dabei aber noch nicht sehr erfolgreich

Patch-Generierung: (Patches sind die Änderungen des LLMs) Die Studie vergleicht, wie die Modelle Code ändern (“Patches”) im Vergleich zu menschlichen Lösungen: Modell-Generierte Patches:
- Sind meist kurz und einfach
- Lösen nur das konkrete Problem
- Verwenden hauptsächlich grundlegende Programmierung
- Ignorieren oft existierende Bibliotheken/Funktionen
Menschliche Patches (Gold-Patches):
- Sind umfangreicher
- Berücksichtigen das größere Bild
- Nutzen existierende Codebase-Funktionen
- Denken an mögliche zukünftige Probleme
- Verbessern oft auch die Code-Struktur

Wichtige Erkenntnisse:

Modelle generieren meist kurze, oberflächliche Patches
Keine Memorisierung alter Lösungen
Große Diskrepanz zwischen KI-generierten und menschlichen Patches

Offene Forschungsfragen:

Wie können Modelle besseres Kontextverständnis entwickeln?
Welche Architekturen ermöglichen komplexere Codeänderungen?
Wie lässt sich die Fähigkeit zur strukturellen Codeanalyse verbessern?