ICML 2026: Stable-GFlowNet, vielfältiges LLM-Red-Teaming

Ein Team von KAIST und NAVER Cloud hat Stable-GFlowNet (S-GFN) vorgestellt, einen neuen Ansatz für automatisiertes Red-Teaming großer Sprachmodelle, der die Schätzung der Partitionsfunktion Z eliminiert und paarweise Vergleiche für stabiles Lernen nutzt. Das Paper erhielt den ICML 2026 Spotlight — weniger als 5 % der akzeptierten Papers — und löst das chronische GFlowNet-Problem: Trainingsinstabilität und Mode Collapse bei verrauschten Belohnungen.

Minchan Kwon, Sunghyun Baek, Minseo Kim, Jaemyung Yu, Dongyoon Han und Junmo Kim von KAIST und NAVER Cloud veröffentlichten am 1. Mai 2026 das Paper Stable-GFlowNet (S-GFN), das die prestigeträchtige ICML 2026 Spotlight-Auszeichnung erhielt. Dies ist ein erstklassiges Qualitätssignal — weniger als 5 % der auf der ICML akzeptierten Papers erhalten einen Spotlight — und macht diesen Ansatz zum automatisierten Red-Teaming von Sprachmodellen zum Referenzwerk für 2026.

Das zentrale Problem, das das Paper löst, ist Trainingsinstabilität und Mode Collapse in GFlowNets — einer Art neuronaler Netzwerke, die lernen, vielfältige Stichproben aus einer Verteilung proportional zu einer Belohnungsfunktion zu generieren. Im Red-Teaming-Kontext muss ein GFlowNet Angriffe auf ein Ziel-Sprachmodell mit variierenden Mustern generieren, nicht nur Varianten desselben Jailbreaks.

Wie löst Stable-GFlowNet das Stabilitätsproblem?

S-GFN eliminiert die Schätzung der Partitionsfunktion Z — ein komplexes Integral, das bei klassischen GFlowNets Trainingsinstabilität verursacht. Stattdessen führen die Autoren paarweise Trajektorienvergleiche (Contrastive Trajectory Balance) ein: Anstatt die absolute Belohnungsskala zu schätzen, vergleicht das Netzwerk den Erfolg zweier Angriffe miteinander.

Die technische Konsequenz ist erheblich: Paarweise Vergleiche sind robust gegenüber Belohnungsrauschen (das Zielmodell kann inkonsistente Angriffserfolgs-Signale zurückgeben), während sie gleichzeitig die Haupteigenschaft des GFlowNet bewahren — die Generierung vielfältiger Stichproben.

Was ist der “Fluency Stabilizer”?

Der zweite technische Beitrag ist ein Fluency Stabilizer, der die Konvergenz zu minderwertigen Lösungen verhindert. Beim Red-Teaming kann instabiles Training das Modell zu „Angriffen” treiben, die tatsächlich bedeutungslose Token-Sequenzen sind (hohe Belohnung aufgrund eines Fehlers in der Belohnungsfunktion, nicht tatsächlicher Wirksamkeit). Der Stabilisator filtert solche pathologischen Moden heraus und hält die generierten Anfragen sprachlich kohärent.

Warum ist vielfältiges Red-Teaming so wichtig?

Systeme, die nur Varianten desselben Jailbreaks generieren, verfallen schnell in Mode Collapse — sie finden ein Loch (z. B. ein Rollenspiel „tue so als ob du DAN wärst”) und variieren es endlos. Ein Sicherheitsteam, das dieses eine Loch schließt, glaubt irrtümlich, das Problem gelöst zu haben, weil das Red-Teaming-System andere Muster nicht abdeckt.

S-GFN deckt eine breitere Angriffsverteilung ab, was bedeutet, dass nach einem Behebungszyklus eine größere Anzahl verschiedener Schwachstellen entdeckt und adressiert wurde. Für KI-Anbieter (Anthropic, OpenAI, Google), die vor dem Einsatz rechtlich Robustheit nachweisen müssen, reduziert ein solches Tool das Risiko öffentlicher Zwischenfälle.

Wie fügt es sich in das breitere Sicherheitsökosystem ein?

Das Paper baut auf einer Reihe jüngerer Arbeiten zum automatisierten Red-Teaming auf — Microsoft Research veröffentlichte am 30. April eine Analyse von Agentennetzwerken, ARMOR 2025 setzte am 30. April einen doktrinären Militär-Benchmark, und verschiedene Labore arbeiten an der Erkennung von Alignment-Faking. Stable-GFlowNet ist die methodische Grundlage, die alle anderen Rahmenwerke für die Generierung von Testszenarien nutzen können.

Für Forscher bleibt die Verfügbarkeit von Code und Checkpoints eine offene Frage — die Autoren versprechen eine spätere Veröffentlichung, was für ICML Spotlight Papers typisch ist.

Häufig gestellte Fragen

Was ist ein GFlowNet im Kontext des Red-Teamings?

Ein GFlowNet (Generative Flow Network) ist eine Art neuronales Netzwerk, das lernt, vielfältige Stichproben aus einer Verteilung proportional zu einer Belohnungsfunktion zu generieren. Beim Red-Teaming wird Belohnung für erfolgreiche Angriffe auf das Zielmodell vergeben — GFlowNet lernt, Angriffe mit vielen verschiedenen Mustern zu generieren, nicht nur Varianten desselben Jailbreaks.

Was ist 'Contrastive Trajectory Balance' und warum ist das der zentrale Beitrag?

Klassische GFlowNets erfordern die Schätzung der Partitionsfunktion Z, ein komplexes Integral. S-GFN umgeht dieses Problem durch paarweise Trajektorienvergleiche — es vergleicht den Erfolg zweier Angriffe miteinander, ohne eine absolute Belohnungsskala zu benötigen. Das reduziert Trainingsinstabilität und ist robuster gegenüber verrauschten Belohnungen.

Warum ist vielfältiges Red-Teaming wichtig?

Systeme, die nur Varianten desselben Jailbreaks generieren, verfallen schnell in 'Mode Collapse' — sie finden ein Loch und wiederholen es endlos. Vielfältiges Red-Teaming entdeckt mehr verschiedene Schwachstellen, sodass ein Produktionsmodell nach der Behebung robuster geschützt ist. Sicherheitsteams brauchen Breite, nicht Tiefe eines einzelnen Angriffs.

ICML 2026 Spotlight: Stable-GFlowNet führt stabileres und vielfältigeres automatisiertes Red-Teaming von Sprachmodellen ein

Wie löst Stable-GFlowNet das Stabilitätsproblem?

Was ist der “Fluency Stabilizer”?

Warum ist vielfältiges Red-Teaming so wichtig?

Wie fügt es sich in das breitere Sicherheitsökosystem ein?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten