arXiv:2606.20517: Multi-LCB erweitert LiveCodeBench auf 12 Programmiersprachen und deckt Python-Overfitting bei 24 Modellen auf
Multi-LCB ist eine Erweiterung des LiveCodeBench-Benchmarks von Python auf 12 Programmiersprachen, beschrieben in der Studie arXiv:2606.20517 und akzeptiert auf der ICLR 2026. Durch Tests an 24 großen Sprachmodellen decken die Autoren signifikantes Python-Overfitting und sprachspezifische Datenkontamination auf und legen die Grenzen mehrsprachiger Codegenerierung in heutigen Modellen offen.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Die neue Studie arXiv:2606.20517 stellt Multi-LCB vor, eine Erweiterung des populären LiveCodeBench-Benchmarks von Python auf 12 Programmiersprachen. LiveCodeBench misst die Fähigkeit großer Sprachmodelle, korrekten Code für Aufgaben zu schreiben, und die bisherige Fokussierung auf Python ließ die Frage offen, wie gut Modelle andere Sprachen wirklich verstehen. Die Studie wurde auf der ICLR 2026, einer der führenden Konferenzen für maschinelles Lernen, akzeptiert.
Was entdeckt wurde
Beim Testen von 24 großen Sprachmodellen identifizierten die Autoren zwei Probleme. Das erste ist signifikantes Python-Overfitting — Modelle sind in Python deutlich erfolgreicher als in anderen Sprachen, was darauf hindeutet, dass sie an die Trainingsverteilung angepasst sind und nicht an ein allgemeines Programmierverstehen. Das zweite ist sprachspezifische Datenkontamination, bei der bestimmte Testaufgaben während des Trainings wahrscheinlich bereits gesehen wurden.
Warum Unterschiede zwischen Sprachen wichtig sind
Datenkontamination bedeutet, dass Benchmark-Ergebnisse aufgebläht sind, weil das Modell Lösungen „auswendig lernt” statt sie herzuleiten. Im Gegensatz zu einsprachigen Tests, die diesen Unterschied verbergen, legt Multi-LCB ihn durch den Vergleich der Leistung über 12 Sprachen offen. Die praktische Konsequenz: Eine ausschließlich an Python gemessene Modellbewertung überschätzt die tatsächliche Fähigkeit zur Codegenerierung in Sprachen wie Rust, Go oder Kotlin.
Bedeutung für die Tool-Entwicklung
Der Befund ist relevant für Entwicklungsteams, die sich auf KI-Assistenten außerhalb des Python-Ökosystems verlassen. Multi-LCB bietet ein faireres, mehrsprachiges Maß und ist eine offene Ressource für künftige Evaluierungen — und gibt Modellherstellern ein klareres Signal, wo das Training auf weniger verbreiteten Sprachen verbessert werden muss.
Häufig gestellte Fragen
- Was ist Multi-LCB?
- Multi-LCB ist eine Erweiterung des LiveCodeBench-Benchmarks von Python auf 12 Programmiersprachen zur Messung mehrsprachiger Codegenerierung in großen Sprachmodellen.
- Wie viele Modelle wurden getestet?
- Die Autoren testeten 24 große Sprachmodelle und entdeckten signifikantes Python-Overfitting sowie sprachspezifische Datenkontamination.
- Wo wurde die Studie veröffentlicht?
- Die Studie arXiv:2606.20517 wurde auf der ICLR 2026 akzeptiert.
Verwandte Nachrichten
UK AISI: Engineering Playbook öffnet Frontier-Modell-Evaluierungsinfrastruktur in fünf Schichten
Black Forest Labs: Robin Rombach fordert G7-Führer auf, offene KI-Entwicklung zu unterstützen
Allen Institute: Open-Source MolmoMotion sagt 3D-Bewegung aus Videos vorher und setzt SOTA in der Robotik