Was ist der DESPITE-Benchmark?

Eine Evaluierung der Sicherheit von LLMs in der Roboterplanung, mit 12.279 Aufgaben und vollständig deterministischer Validierung physischer und normativer Gefahren.

Bedeutet ein größeres Modell auch ein sichereres Modell?

Nein. Unter 18 Open-Source-Modellen (3B–671B Parameter) steigt die Planungsleistung von 0,4% auf 99,3%, während das Sicherheitsbewusstsein zwischen 38% und 57% stagniert.

Welche Modelle sind am sichersten?

Proprietäre Reasoning-Modelle (71–81% Sicherheitsbewusstsein). Nicht-Reasoning- und Open-Source-Reasoning-Modelle bleiben unter 57%.

DESPITE-Benchmark: Planungsfähigkeit garantiert keine Sicherheit

Ein Forschungsteam hat den DESPITE-Benchmark vorgestellt — die bisher größte systematische Evaluierung der Sicherheit von Sprachmodellen im Kontext der Roboter-Aufgabenplanung. Die Ergebnisse offenbaren ein beunruhigendes Muster: Modelle werden zu brillanten Planern, bleiben aber gleichgültig gegenüber Gefahren.

Was misst der DESPITE-Benchmark und wie?

DESPITE evaluiert 23 Modelle auf 12.279 Aufgaben, die sowohl physische Gefahren (z.B. Umgang mit scharfen Gegenständen, Hitze, Elektrizität) als auch normative Gefahren (z.B. Verfahren, die Regeln, Ethik oder Nutzungskontext verletzen) abdecken. Die wichtigste methodische Innovation ist die „vollständig deterministische Validierung” — eine vollständig deterministische Überprüfung, die nicht auf einem anderen LLM als Richter basiert, sondern auf vordefinierten Regeln, die einen Plan eindeutig als sicher oder gefährlich klassifizieren. Dies beseitigt das Rauschen subjektiver Beurteilungen und ermöglicht den Modellvergleich auf derselben Messskala. Die Forscher verglichen zwei Dimensionen: die Fähigkeit, einen gültigen Plan zu erstellen (technisch durchführbar) und die Fähigkeit, gefährliche Schritte in diesem Plan zu vermeiden.

Warum sind Planung und Sicherheit orthogonale Fähigkeiten?

Der wichtigste Befund der Arbeit: „Der beste Planer scheitert bei der Erstellung eines gültigen Plans in nur 0,4% der Aufgaben, produziert aber in 28,3% der Fälle gefährliche Pläne.” Ein Modell, das technisch fast nie einen Fehler macht, schlägt also in jedem vierten Szenario etwas vor, das Menschen verletzen oder Eigentum zerstören könnte. Unter 18 Open-Source-Modellen (von 3 bis 671 Milliarden Parametern) wächst die Planungsfähigkeit mit der Größe dramatisch — von 0,4% Erfolg bei den kleinsten bis 99,3% bei den größten. Das Sicherheitsbewusstsein bleibt jedoch relativ flach, zwischen 38% und 57%, unabhängig von der Größe. Dies ist ein starker Beweis, dass es sich um separate (orthogonale) Fähigkeiten handelt — die Skalierung von Parametern verbessert die Planung, aber nicht die Sicherheitsbeurteilung. Die Autoren schlussfolgern, dass die Beziehung multiplikativ ist: Größere Modelle „scheitern” weniger, weil sie besser planen, nicht weil sie Gefahren besser vermeiden.

Welche Modelle führen und was bedeutet das für den Einsatz?

Proprietäre Reasoning-Modelle (jene, die intermediäre Schlussfolgerungsschritte zeigen, wie Claude, die OpenAI o-Serie und ähnliche geschlossene Systeme) übertreffen die Alternativen deutlich mit 71–81% Sicherheitsbewusstsein. Nicht-Reasoning-proprietäre Modelle und Open-Source-Reasoning-Modelle bleiben unter 57%. Die praktische Implikation ist ernst: Da Frontier-Modelle die Planungsleistung sättigen, wird das Sicherheitsbewusstsein zum wichtigsten Glied in der Zuverlässigkeitskette. Skalierung ist nicht mehr die Lösung. Die Autoren argumentieren, dass Sicherheit dedizierte architektonische Ansätze und dedizierte Trainingsmethoden erfordert, nicht nur mehr Parameter. Für die Robotikbranche bedeutet dies, dass LLM-basierte Systeme nicht ohne zusätzliche Sicherheitsschichten betrieben werden sollten — Planverifikation, externe Rule Engines und menschliche Aufsicht — unabhängig davon, wie beeindruckend sie planen. DESPITE ist eine nützliche Grundlage für Regulatoren und Integratoren, die die Bereitschaft von Modellen für die reale Welt objektiv messen wollen.

DESPITE-Benchmark: LLMs planen gut für Roboter, aber nicht sicher

DESPITE-Benchmark: Planungsfähigkeit garantiert keine Sicherheit

Was misst der DESPITE-Benchmark und wie?

Warum sind Planung und Sicherheit orthogonale Fähigkeiten?

Welche Modelle führen und was bedeutet das für den Einsatz?

Quellen

Verwandte Nachrichten