Montag, 4. Mai 2026

9 Nachrichten — 🟡 6 wichtig , 🟢 3 interessant

🤖 Modelle (2)

🟢 🤖 Modelle 4. Mai 2026 · 2 Min. Lesezeit

AdaMeZO: Adam-Stil LLM-Fine-Tuning ohne Speicherung von Gradientenmomenten im GPU-Speicher

AdaMeZO ist ein Optimierer nullter Ordnung, der die Vorteile des Adam-Algorithmus mit der Speichereffizienz des MeZO-Ansatzes für das Fine-Tuning großer Sprachmodelle kombiniert. Er nutzt ausschließlich Vorwärtsdurchläufe und erreicht bis zu 70 % weniger Durchläufe gegenüber MeZO bei verbesserter Konvergenz.

🟢 🤖 Modelle 4. Mai 2026 · 2 Min. Lesezeit

BWLA: 1-Bit-Quantisierung von Sprachmodellen mit 3,26-facher Beschleunigung und 70 % besseren Ergebnissen (ACL 2026)

BWLA ist ein neues Post-Training-Quantisierungsframework für große Sprachmodelle, das erstmals gleichzeitig 1-Bit-Gewichtspräzision und niedrig-Bit-Aktivierungen ohne signifikanten Genauigkeitsverlust erzielt. Auf dem Modell Qwen3-32B erreicht es eine Perplexität von 11,92 und eine 3,26-fache Beschleunigung gegenüber bisherigen Methoden.

🤝 Agenten (4)

🟡 🤝 Agenten 4. Mai 2026 · 2 Min. Lesezeit

ArXiv AEM: Adaptive Entropiemodulation für Multi-Turn-RL-Agenten erreicht +1,4 % auf SWE-bench Verified

AEM (Adaptive Entropy Modulation) ist eine überwachungsfreie Trainingsmethode, die Entropie über mehrere Gesprächsrunden dynamisch moduliert, um Exploration und Exploitation in RL-trainierten agentischen Sprachmodellen zu balancieren. Getestet an Modellen von 1,5 bis 32 Milliarden Parametern erzielt sie +1,4 % auf SWE-bench Verified.

🟡 🤝 Agenten 4. Mai 2026 · 2 Min. Lesezeit

Position Paper von 30 Autoren auf ICML 2026: Orchestrierung agentischer KI-Systeme muss Bayes-konsistent sein

Dreißig Forscher aus akademischen und industriellen Laboren haben ein auf der ICML 2026 akzeptiertes Position Paper veröffentlicht, das fordert, die Kontrollschicht agentischer KI-Systeme müsse Bayessche Konsistenz wahren. Die Autoren vertreten, dass Sprachmodelle für Entscheidungen unter Unsicherheit ungeeignet sind, ein Orchestrator über ihnen jedoch kalibrierte Überzeugungen aufrechterhalten und nutzenorientierte Strategien anwenden kann und muss.

🟡 🤝 Agenten 4. Mai 2026 · 3 Min. Lesezeit

ArXiv-Rahmen 'To Call or Not to Call' zeigt: Sprachmodelle beurteilen falsch, wann sie externe Werkzeuge brauchen

Forscher vom Max-Planck-Institut für Softwaresysteme und Mitarbeiter veröffentlichten einen Rahmen, der Werkzeugaufruf-Entscheidungen von Sprachmodell-Agenten über drei Dimensionen bewertet: Notwendigkeit, Nutzen und Kostenakzeptabilität. Experimente mit sechs Modellen und drei Aufgaben zeigen eine erhebliche Lücke zwischen dem, was das Modell glaubt zu brauchen, und dem, was tatsächlich die Genauigkeit steigert.

🟢 🤝 Agenten 4. Mai 2026 · 2 Min. Lesezeit

ArXiv: die versteckten Kosten von Werkzeugen in LLM-Agenten — 'Tool-Use Tax' senkt Genauigkeit selbst wenn Werkzeuge helfen

Editorial illustration: ArXiv: die versteckten Kosten von Werkzeugen in LLM-Agenten — Tool-Use Tax senkt Genauigkeit selbst wenn Werkzeuge helfen

Forscher haben gezeigt, dass das Aufrufen von Werkzeugen in LLM-Agenten versteckte Kosten einführt — die sogenannte 'Tool-Use Tax' — die durch Formatierungsaufwand und Protokoll-Overhead entsteht. Mit einem Faktoriellen Interventionsrahmen isolieren sie drei Kostenkomponenten und führen ein G-STEP-Gate ein, das Verluste ohne Modelländerung teilweise abschwächt.

🏥 In der Praxis (1)

🟡 🏥 In der Praxis 4. Mai 2026 · 3 Min. Lesezeit

IBM-Studie: 76 % der Unternehmen haben einen Chief AI Officer, CEOs erwarten 48 % autonome KI-Entscheidungen bis 2030

Das IBM Institute for Business Value veröffentlichte eine Studie über 2.000 Vorstandsvorsitzende aus 33 Ländern, die zeigt, dass die Rolle des Chief AI Officers innerhalb eines Jahres von 26 % auf 76 % der Organisationen ausgeweitet wurde. CEOs erwarten, dass KI-Systeme bis 2030 48 % der operativen Entscheidungen ohne menschliche Intervention treffen werden, was die gesamte C-Suite-Struktur neu definiert.

🛡️ Sicherheit (2)

🟡 🛡️ Sicherheit 4. Mai 2026 · 3 Min. Lesezeit

ArXiv ARMOR 2025: erster militärischer LLM-Sicherheitsbenchmark mit 519 Prompts über 21 kommerzielle Modelle

Forscher der Virginia Tech haben ARMOR 2025 veröffentlicht, den ersten Sicherheitsbenchmark, der Sprachmodelle anhand des Kriegsrechts, der Einsatzregeln und der Joint Ethics Regulation bewertet. Der Test mit 519 doktrinären Prompts über 21 kommerzielle Modelle deckt kritische Lücken auf — bestehende Sicherheitsevaluierungen prüfen nicht, ob Modelle mit den rechtlichen und ethischen Regeln militärischer Operationen konform sind.

🟡 🛡️ Sicherheit 4. Mai 2026 · 3 Min. Lesezeit

ICML 2026 Spotlight: Stable-GFlowNet führt stabileres und vielfältigeres automatisiertes Red-Teaming von Sprachmodellen ein

Editorial illustration: ICML 2026 Spotlight: Stable-GFlowNet führt stabileres und vielfältigeres automatisiertes Red-Teaming von Sprachmodellen ein

Ein Team von KAIST und NAVER Cloud hat Stable-GFlowNet (S-GFN) vorgestellt, einen neuen Ansatz für automatisiertes Red-Teaming großer Sprachmodelle, der die Schätzung der Partitionsfunktion Z eliminiert und paarweise Vergleiche für stabiles Lernen nutzt. Das Paper erhielt den ICML 2026 Spotlight — weniger als 5 % der akzeptierten Papers — und löst das chronische GFlowNet-Problem: Trainingsinstabilität und Mode Collapse bei verrauschten Belohnungen.

← Vorheriger Tag Nächster Tag →