🟡 🤝 Agenten Veröffentlicht: · 3 Min. Lesezeit ·

SEA: Agenten, die sich selbst modifizieren – mit formalen Sicherheitsgarantien in Echtzeit

Redaktionelle Illustration: Selbstevolvierende KI-Agenten mit formalen Sicherheitszertifikaten und Verhaltensverifizierung

Die SEA-Architektur (Self-Evolving Agents with Anytime-Valid Certificates) ermöglicht Agenten die Aktualisierung eigener Parameter unter Beibehaltung formaler lerntheoretischer Garantien. Fünf Verifizierungsmechanismen und auditierbare Zertifikate genehmigen oder blockieren jede Selbstmodifikation in Echtzeit; auf SWE-bench Verified erzielt SEA +4 bis +5 zusätzlich gelöste Instanzen auf starken Basismodellen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Forscher Biswa Sengupta veröffentlichte am 1. Juli 2026 die SEA-Architektur (Self-Evolving Agents with Anytime-Valid Certificates), die eine grundlegende Spannung in der KI-Agentenentwicklung auflöst: Wie lässt sich Selbstmodifikation ermöglichen, ohne formale Sicherheitsgarantien zu opfern?

Das Problem der unkontrollierten Selbstmodifikation

Agenten, die ihre eigenen Gewichte oder Steuerungsmechanismen aktualisieren können, untergraben die grundlegenden Annahmen der klassischen Lerntheorie. Wenn ein Agent selbst Daten für sein eigenes Lernen generiert und die Qualität dieser Daten selbst bewertet, hören Standard-Statistikrahmen auf zu funktionieren – es gibt keinen unabhängigen Evaluator, der bestätigt, dass die Änderung nützlich ist.

Bisherige Ansätze lösten das Problem entweder durch Verbot der Selbstmodifikation (wodurch das Anpassungspotenzial verloren geht) oder durch Akzeptanz unkontrollierter Selbstverbesserung (wodurch unvorhersehbares Verhalten akzeptiert wird).

SEA: Architektur mit formalen Sperren

SEA löst diese Spannung auf drei Ebenen.

Erstens, Begrenzung des „Blast Radius”: Alle Selbstmodifikationen sind ausschließlich auf einen Steering-Adapter beschränkt, der das eingefrorene Basismodell umgibt. Die grundlegenden Modellgewichte werden niemals verändert – was bedeutet, dass selbst in einem Szenario einer völlig falschen Selbstmodifikation die Basiskapazität des Modells intakt bleibt.

Zweitens, fünf Verifizierungsmechanismen, die Signale zur Genehmigung oder Ablehnung jeder Modifikation generieren, ohne einen externen Evaluator zu benötigen:

  • Best-of-N-Auswahl – vergleicht mehrere Kandidatenmodifikationen
  • Mikro-Schritt-Suche – granulare Suche im Anpassungsraum
  • Selbstgeschriebene Orakel – der Agent konstruiert selbst Tests für seine Modifikationen
  • Kontrolle der Suchebene – Überwachung von Tiefe und Richtung der Suche
  • Selbstreparatur – Echtzeit-Erkennung und -Korrektur von Regressionen

Was sind „Anytime-Valid-Zertifikate”?

Die dritte Ebene ist statistisch: SEA verwendet anytime-valid statistische Sperren, die für jede vorgeschlagene Selbstmodifikation ein auditierbares Zertifikat ausgeben. Das Zertifikat bestätigt, dass die Modifikation ein vorab festgelegtes Fehlerbudget nicht überschreitet – und zwar zu jedem Zeitpunkt des Prozesses, nicht nur am Ende eines Evaluierungszeitraums.

„Anytime-valid” bedeutet, dass der Schluss gilt, unabhängig davon, wann die Evaluierung angehalten wird – es ist keine vorab festgelegte Schrittanzahl erforderlich. Dies ist wichtig für Deployment-Szenarien, in denen ein Agent in Echtzeit arbeitet und kontinuierlich Entscheidungen über Selbstmodifikation treffen muss.

Ergebnisse auf SWE-bench Verified

SEA wurde auf einem 52-Instanzen-Teilsatz von SWE-bench Verified über vier Basismodelle getestet. Der zentrale Befund: Das Basismodell ist der dominante Faktor – SEA verstärkt die Fähigkeit starker Modelle, maskiert aber nicht die Schwächen schwacher.

Auf starken Basismodellen mit No-Op-Kontrolle erzielt SEA +4 bis +5 zusätzlich gelöste Instanzen. Konkrete Ergebnisse: GLM verbessert von 24 auf 28 gelöste Instanzen, GPT von 29 auf 34. Event-Logs bestätigten, dass die Verifizierungsmechanismen während des Tests aktiv Leistungsregressionen verhinderten.

Die Forscher bemerken, dass Evaluierungen aufgrund der Aufgabenkosten in einer einzigen Iteration durchgeführt wurden; die Bestätigung der Varianz zwischen Läufen bleibt zukünftiger Forschung vorbehalten.

SEA demonstriert, dass Selbstverbesserung und Sicherheitssteuerung kein Widerspruch sind – formale Zertifizierung ist innerhalb der Grenzen eines operativen Agenten sowohl möglich als auch praktisch nützlich.

Häufig gestellte Fragen

Was unterscheidet SEA von bisherigen selbstverbessernden Agenten?
SEA erlaubt keine freie Selbstmodifikation – jede Änderung durchläuft anytime-valid statistische Sperren, die auditierbare Zertifikate ausgeben und Modifikationen blockieren, die ein vorab festgelegtes Fehlerbudget überschreiten würden.
Wie wird der „Blast Radius” einer schlechten Selbstmodifikation begrenzt?
SEA beschränkt alle Änderungen auf einen Steering-Adapter um das eingefrorene Basismodell herum, sodass potenziell schädliche Selbst-Edits die grundlegenden Modellgewichte nicht verändern können.
Wie hat SEA die Leistung auf SWE-bench verbessert?
Auf einem 52-Instanzen-Teilsatz von SWE-bench Verified, getestet auf vier Basismodellen, erzielte SEA +4 bis +5 zusätzlich gelöste Instanzen auf starken Basismodellen – GLM verbesserte sich von 24 auf 28, GPT von 29 auf 34.