Samstag, 23. Mai 2026

15 Nachrichten — 🔴 3 kritisch , 🟡 7 wichtig , 🟢 5 interessant

📦 Open Source (1)

🟢 📦 Open Source 23. Mai 2026 · 3 Min. Lesezeit

Kedro: Version 1.2.0 bringt @experimental-Dekorator und LangGraph Agentic Starter für GenAI-Pipelines

Editorial-Illustration: Pipeline-Knoten mit LangGraph-Orchestrierungsbrücke und Mermaid-Diagramm

Das Linux-Foundation-KI-Projekt Kedro veröffentlichte Version 1.2.0 zusammen mit Kedro-Viz 12.3.0. Der neue @experimental-Dekorator ermöglicht das Markieren von APIs in der Entwicklung; das Starter-Projekt support-agent-langgraph zeigt die Integration mit LangGraph-Orchestrierung und Langfuse/Opik-Prompt-Management. Kedro-Viz erhält Mermaid-Diagramme und Node-Preview-Erweiterbarkeit für besseres Pipeline-Debugging.

🤝 Agenten (4)

🔴 🤝 Agenten 23. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.22502: Kompilierung agentischer Workflows in LLM-Gewichte liefert Near-Frontier-Qualität bei 100× niedrigeren Kosten

Editorial-Illustration: Workflow-Knoten kollabieren in einen kompakten neuronalen Netzkern

Forscher zeigten, dass komplexe agentische Workflows direkt in die Gewichte eines kleineren feinabgestimmten Modells kodiert werden können, statt in externe Orchestrierung wie LangChain oder LangGraph. Der Ansatz erreicht Near-Frontier-Qualität bei 100× niedrigeren Inferenzkosten in drei realen Szenarien: Reisebuchung, Zoom-Support und Versicherung, mit Workflows von 14 bis 55 Knoten.

🔴 🤝 Agenten 23. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.22794: MOSS zeigt Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern

Editorial-Illustration: KI-Agent schreibt seinen eigenen Quellcode in einer Sandbox-Schleife um

Forscher präsentierten MOSS, ein Framework für autonome Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern — nicht nur durch Prompt- oder Fine-Tuning-Anpassungen. Auf dem OpenClaw-Benchmark steigert ein einziger MOSS-Selbstevolutionszyklus den Score ohne menschliche Eingriffe von 0,25 auf 0,61 und zeigt, dass Agenten Routing, Hooks und Dispatch-Logik reparieren können, die textbasierte Methoden nicht erreichen.

🟡 🤝 Agenten 23. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.22535: TerminalWorld-Benchmark misst KI-Agenten auf echten Linux-Terminal-Aufgaben ohne Simulation

Redaktionelle Illustration: Terminal-Prompt mit Git- und Bash-Befehlen und einem KI-Agenten, der sie ausführt

TerminalWorld ist ein neuer Benchmark, der KI-Agenten auf echten Bash-, Git- und Dateioperationen in realen Linux-Prozessen evaluiert — ohne Simulation. Das von Zhaoyang Chu und Jiarui Hu geführte Acht-Autoren-Papier setzt einen neuen Maßstab für „Computer-Use”-Agenten und ist direkt relevant für Tools wie Claude Code, GitHub Copilot Workspace und den Agentenmodus von Cursor.

🟡 🤝 Agenten 23. Mai 2026 · 2 Min. Lesezeit

Anthropic Claude Code v2.1.149 bringt kategorienweise /usage-Aufschlüsselung und schließt PowerShell-Permission-Bypass

Editorial-Illustration: Terminal mit Nutzungsdiagramm und Sicherheitsschild

Anthropic veröffentlichte Claude Code CLI v2.1.149, das den /usage-Befehl mit Kostenaufschlüsselung nach Kategorien (Skills, Subagents, Plugins, je MCP-Server) erweitert. Das Release schließt zwei Sicherheitslücken: einen PowerShell-Permission-Bypass über Built-in-Funktionen und eine fehlerhafte Allowlist für die Git-Worktree-Sandbox. Hinzugekommen ist die Enterprise-Einstellung allowAllClaudeAiMcps für Cloud-MCP-Konnektoren.

🔧 Hardware (1)

🟢 🔧 Hardware 23. Mai 2026 · 3 Min. Lesezeit

AMD: Gluon Block-Level-Modell ermöglicht GEMM-Kernels mit 5,255 TFLOPS MXFP4 auf Instinct MI355

Editorial-Illustration: GPU-Beschleuniger mit Matrix-Einheit-Layout und Pipeline-Flüssen

Das AMD ROCm-Team veröffentlichte ein Tutorial zum Schreiben hochperformanter GEMM-Kernels im Gluon-Programmiermodell auf dem MI355-GPU. Ein optimierter FP16-Kernel erreicht 1,489 TFLOPS bei 98,75 Prozent MFMA-Effizienz; Erweiterungen auf BF8 (3,257 TFLOPS) und MXFP4 (5,255 TFLOPS) belegen die Relevanz für moderne KI-Workloads. Das Tutorial umfasst Workgroup-Remapping und Swizzle, das L2-Cache-Misses von 5,3 Mio. auf 4,1 Mio. reduziert.

🏥 In der Praxis (5)

🟡 🏥 In der Praxis 23. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.22681: CUSP-Benchmark zeigt, dass Frontier-Modelle wissenschaftliche Durchbrüche nicht zuverlässig vorhersagen können

Editorial-Illustration: wissenschaftliche Kurve mit Durchbruchspunkt und KI-System verfehlt Vorhersage

Der CUSP-Benchmark testet die Fähigkeit von KI-Modellen, wissenschaftliche Durchbrüche aus einer Datenbank mit 4.700 Ereignissen vorherzusagen. Frontier-Modelle (GPT-5, Claude Opus 4.7, Gemini 3 Pro) identifizieren plausible Forschungsrichtungen, schätzen Ergebnisse und Timing jedoch systematisch mit übermäßiger Sicherheit falsch ein. Zusätzlicher Pre-Cutoff-Kontext hilft nicht — die Einschränkung ist struktureller Natur.

🟡 🏥 In der Praxis 23. Mai 2026 · 2 Min. Lesezeit

GitHub: Gartner Magic Quadrant 2026 — GitHub Copilot zum dritten Mal Leader bei Enterprise AI Coding Agents

Editorial-Illustration: Quadrantenmatrix mit GitHub Copilot positioniert im Leader-Sektor

Gartner positionierte GitHub in seinem Magic-Quadrant-Bericht 2026 für Enterprise AI Coding Agents als Leader — zum dritten Mal in Folge seit Bestehen der Kategorie. GitHub Copilot wird derzeit von 140.000 Organisationen weltweit genutzt; die Bewertung betonte agentische Workflows, die den gesamten SDLC von Code über Review bis Sicherheit und Governance abdecken.

🟢 🏥 In der Praxis 23. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.22337: Meta-Soft führt KV-Cache-Komprimierung mit komponierbaren Meta-Token und lernbaren orthogonalen Basen ein

Editorial-Illustration: Meta-Token komprimieren Attention-Cache in eine orthogonale Basisstruktur

Forscher präsentierten Meta-Soft, eine neue Methode zur dynamischen KV-Cache-Komprimierung bei LLM-Inferenz. Der Ansatz nutzt eine lernbare orthogonale Basismatrix und ein Selector-Netzwerk, die Soft-Meta-Token synthetisieren — eine komprimierte Darstellung wichtiger Informationen aus langen Prompts. Ein Attention-Flow-Mechanismus verteilt semantische Informationen gelöschter Token auf beibehaltene um und übertrifft bestehende Eviction-Methoden.

🟢 🏥 In der Praxis 23. Mai 2026 · 4 Min. Lesezeit

arXiv:2605.22664: WorkstreamBench testet KI-Agenten auf End-to-End-Tabellenkalkulationsaufgaben im Finanzbereich — und Frontier-Modelle scheitern

Redaktionelle Illustration: Excel-Tabellenkalkulation mit Formeln und KI-Agent, der diese analysiert

WorkstreamBench ist ein neuer Benchmark mit zehn Autoren unter der Leitung von Thomson Yen, der KI-Agenten auf realen Excel- und Tabellenkalkulationsaufgaben im Finanzbereich testet — Rechnungen, Berichte, Kostenanalyse. GPT-4o, Claude und Gemini werden verglichen, und keines besteht den vollständigen Aufgabensatz zuverlässig — ein Hinweis auf strukturelle Mängel in der aktuellen Agenten-Infrastruktur für das Enterprise-Finanzwesen.

🟢 🏥 In der Praxis 23. Mai 2026 · 2 Min. Lesezeit

Anthropic Claude Code v2.1.150 — interner Infrastruktur-Patch ohne nutzerseitige Änderungen

Redaktionelle Illustration: Claude Code Terminal mit Versionsnummerierung und internen Zahnrädern

Anthropic hat am Samstag um 04:03 UTC Claude Code CLI Version v2.1.150 veröffentlicht — nur einen Tag nach v2.1.149. Das Release enthält ausschließlich interne Infrastrukturverbesserungen ohne nutzerseitige Änderungen. Verfügbar für Darwin, Linux und Windows auf ARM64- und x64-Architekturen sowie als Linux-musl-Build.

🛡️ Sicherheit (3)

🔴 🛡️ Sicherheit 23. Mai 2026 · 3 Min. Lesezeit

Anthropic: Project Glasswing findet 10.000 hochriskante Schwachstellen im ersten Monat mit Claude Mythos Preview

Editorial-Illustration: digitaler Kompass über einem Code-Raster mit hervorgehobenen Schwachstellen

Anthropic Project Glasswing vereint rund 50 Sicherheitspartner, die Claude Mythos Preview zum Scannen kritischer Software nutzen. Im ersten Monat wurden über 10.000 hochriskante und kritische Schwachstellen gefunden; Open-Source-Scanner entdeckten 6.202 Lücken in tausend Projekten mit einer True-Positive-Rate von 90,6 Prozent.

🟡 🛡️ Sicherheit 23. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.22786: LCGuard schützt geteilten KV-Cache zwischen Agenten in Multi-Agenten-Systemen vor Datenlecks

Redaktionelle Illustration: Grenze zwischen zwei Agentenzonen mit kryptografischem Schutzschild um den KV-Cache

LCGuard ist ein neues Framework zum Schutz vor Datenlecks in Multi-Agenten-Systemen, die einen KV-Cache zur Effizienzsteigerung teilen. Das von Sadie Asif geleitete Papier aus IBM Research und MIT präsentiert das erste formale Modell für einen „Latent Communication Guard”-Ansatz, anwendbar auf produktive Agenten-RAG-Systeme, in denen mehrere Agenten Kontext über ein gemeinsames Gedächtnis teilen.

🟡 🛡️ Sicherheit 23. Mai 2026 · 3 Min. Lesezeit

GitHub: npm 11.15.0 führt Staged Publishing und drei neue Install-Zeit --allow-Flags für Supply-Chain-Hardening ein

Editorial-Illustration: npm-Paket im Staging-Bereich mit Schlüssel und Sicherheitsfilter

GitHub veröffentlichte npm CLI v11.15.0 mit Staged Publishing — Pakete erfordern nun Maintainer-Genehmigung, bevor sie zur Installation verfügbar werden. Dazu kommen drei neue Install-Zeit-Flags (--allow-file, --allow-remote, --allow-directory) neben dem bestehenden --allow-git für granulare Kontrolle über Dependency-Quellen im npm-install-Befehl.

✨ Interessantes (1)

🟡 ✨ Interessantes 23. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.22763: KI-Agent mit Lean-Verifikation löst 9 offene Erdős-Probleme und 44 OEIS-Vermutungen

Editorial-Illustration: mathematische Symbole und Lean-Typen verbunden in einem formalen Beweisbaum

Ein 20-köpfiges Forscherteam von DeepMind und MIT CSAIL veröffentlichte die erste groß angelegte Evaluation von LLMs zur autonomen Generierung formaler Beweise im Lean-Theorem-Prover. Der Agent kombiniert LLM-Generierung mit Lean-Verifikation und löst autonom 9 von 353 offenen Erdős-Problemen sowie 44 von 492 OEIS-Vermutungen.

← Vorheriger Tag Nächster Tag →