🔴 🛡️ Sicherheit

Anthropic: Project Glasswing findet 10.000 hochriskante Schwachstellen im ersten Monat mit Claude Mythos Preview

Editorial-Illustration: digitaler Kompass über einem Code-Raster mit hervorgehobenen Schwachstellen

Anthropic Project Glasswing vereint rund 50 Sicherheitspartner, die Claude Mythos Preview zum Scannen kritischer Software nutzen. Im ersten Monat wurden über 10.000 hochriskante und kritische Schwachstellen gefunden; Open-Source-Scanner entdeckten 6.202 Lücken in tausend Projekten mit einer True-Positive-Rate von 90,6 Prozent.

🔴 🤝 Agenten

arXiv:2605.22502: Kompilierung agentischer Workflows in LLM-Gewichte liefert Near-Frontier-Qualität bei 100× niedrigeren Kosten

Editorial-Illustration: Workflow-Knoten kollabieren in einen kompakten neuronalen Netzkern

Forscher zeigten, dass komplexe agentische Workflows direkt in die Gewichte eines kleineren feinabgestimmten Modells kodiert werden können, statt in externe Orchestrierung wie LangChain oder LangGraph. Der Ansatz erreicht Near-Frontier-Qualität bei 100× niedrigeren Inferenzkosten in drei realen Szenarien: Reisebuchung, Zoom-Support und Versicherung, mit Workflows von 14 bis 55 Knoten.

🔴 🤝 Agenten

arXiv:2605.22794: MOSS zeigt Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern

Editorial-Illustration: KI-Agent schreibt seinen eigenen Quellcode in einer Sandbox-Schleife um

Forscher präsentierten MOSS, ein Framework für autonome Agenten, die sich durch Umschreiben ihres eigenen Quellcodes verbessern — nicht nur durch Prompt- oder Fine-Tuning-Anpassungen. Auf dem OpenClaw-Benchmark steigert ein einziger MOSS-Selbstevolutionszyklus den Score ohne menschliche Eingriffe von 0,25 auf 0,61 und zeigt, dass Agenten Routing, Hooks und Dispatch-Logik reparieren können, die textbasierte Methoden nicht erreichen.

Heute in der KI-Welt

🟡 🏥 In der Praxis 23. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.22681: CUSP-Benchmark zeigt, dass Frontier-Modelle wissenschaftliche Durchbrüche nicht zuverlässig vorhersagen können

Editorial-Illustration: wissenschaftliche Kurve mit Durchbruchspunkt und KI-System verfehlt Vorhersage

Der CUSP-Benchmark testet die Fähigkeit von KI-Modellen, wissenschaftliche Durchbrüche aus einer Datenbank mit 4.700 Ereignissen vorherzusagen. Frontier-Modelle (GPT-5, Claude Opus 4.7, Gemini 3 Pro) identifizieren plausible Forschungsrichtungen, schätzen Ergebnisse und Timing jedoch systematisch mit übermäßiger Sicherheit falsch ein. Zusätzlicher Pre-Cutoff-Kontext hilft nicht — die Einschränkung ist struktureller Natur.

🟡 ✨ Interessantes 23. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.22763: KI-Agent mit Lean-Verifikation löst 9 offene Erdős-Probleme und 44 OEIS-Vermutungen

Editorial-Illustration: mathematische Symbole und Lean-Typen verbunden in einem formalen Beweisbaum

Ein 20-köpfiges Forscherteam von DeepMind und MIT CSAIL veröffentlichte die erste groß angelegte Evaluation von LLMs zur autonomen Generierung formaler Beweise im Lean-Theorem-Prover. Der Agent kombiniert LLM-Generierung mit Lean-Verifikation und löst autonom 9 von 353 offenen Erdős-Problemen sowie 44 von 492 OEIS-Vermutungen.

🟡 🛡️ Sicherheit 23. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.22786: LCGuard schützt geteilten KV-Cache zwischen Agenten in Multi-Agenten-Systemen vor Datenlecks

Redaktionelle Illustration: Grenze zwischen zwei Agentenzonen mit kryptografischem Schutzschild um den KV-Cache

LCGuard ist ein neues Framework zum Schutz vor Datenlecks in Multi-Agenten-Systemen, die einen KV-Cache zur Effizienzsteigerung teilen. Das von Sadie Asif geleitete Papier aus IBM Research und MIT präsentiert das erste formale Modell für einen „Latent Communication Guard”-Ansatz, anwendbar auf produktive Agenten-RAG-Systeme, in denen mehrere Agenten Kontext über ein gemeinsames Gedächtnis teilen.

🟡 🤝 Agenten 23. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.22535: TerminalWorld-Benchmark misst KI-Agenten auf echten Linux-Terminal-Aufgaben ohne Simulation

Redaktionelle Illustration: Terminal-Prompt mit Git- und Bash-Befehlen und einem KI-Agenten, der sie ausführt

TerminalWorld ist ein neuer Benchmark, der KI-Agenten auf echten Bash-, Git- und Dateioperationen in realen Linux-Prozessen evaluiert — ohne Simulation. Das von Zhaoyang Chu und Jiarui Hu geführte Acht-Autoren-Papier setzt einen neuen Maßstab für „Computer-Use”-Agenten und ist direkt relevant für Tools wie Claude Code, GitHub Copilot Workspace und den Agentenmodus von Cursor.

🟡 🤝 Agenten 23. Mai 2026 · 2 Min. Lesezeit

Anthropic Claude Code v2.1.149 bringt kategorienweise /usage-Aufschlüsselung und schließt PowerShell-Permission-Bypass

Editorial-Illustration: Terminal mit Nutzungsdiagramm und Sicherheitsschild

Anthropic veröffentlichte Claude Code CLI v2.1.149, das den /usage-Befehl mit Kostenaufschlüsselung nach Kategorien (Skills, Subagents, Plugins, je MCP-Server) erweitert. Das Release schließt zwei Sicherheitslücken: einen PowerShell-Permission-Bypass über Built-in-Funktionen und eine fehlerhafte Allowlist für die Git-Worktree-Sandbox. Hinzugekommen ist die Enterprise-Einstellung allowAllClaudeAiMcps für Cloud-MCP-Konnektoren.

🟡 🏥 In der Praxis 23. Mai 2026 · 2 Min. Lesezeit

GitHub: Gartner Magic Quadrant 2026 — GitHub Copilot zum dritten Mal Leader bei Enterprise AI Coding Agents

Editorial-Illustration: Quadrantenmatrix mit GitHub Copilot positioniert im Leader-Sektor

Gartner positionierte GitHub in seinem Magic-Quadrant-Bericht 2026 für Enterprise AI Coding Agents als Leader — zum dritten Mal in Folge seit Bestehen der Kategorie. GitHub Copilot wird derzeit von 140.000 Organisationen weltweit genutzt; die Bewertung betonte agentische Workflows, die den gesamten SDLC von Code über Review bis Sicherheit und Governance abdecken.

🟡 🛡️ Sicherheit 23. Mai 2026 · 3 Min. Lesezeit

GitHub: npm 11.15.0 führt Staged Publishing und drei neue Install-Zeit --allow-Flags für Supply-Chain-Hardening ein

Editorial-Illustration: npm-Paket im Staging-Bereich mit Schlüssel und Sicherheitsfilter

GitHub veröffentlichte npm CLI v11.15.0 mit Staged Publishing — Pakete erfordern nun Maintainer-Genehmigung, bevor sie zur Installation verfügbar werden. Dazu kommen drei neue Install-Zeit-Flags (--allow-file, --allow-remote, --allow-directory) neben dem bestehenden --allow-git für granulare Kontrolle über Dependency-Quellen im npm-install-Befehl.

🟢 🔧 Hardware 23. Mai 2026 · 3 Min. Lesezeit

AMD: Gluon Block-Level-Modell ermöglicht GEMM-Kernels mit 5,255 TFLOPS MXFP4 auf Instinct MI355

Editorial-Illustration: GPU-Beschleuniger mit Matrix-Einheit-Layout und Pipeline-Flüssen

Das AMD ROCm-Team veröffentlichte ein Tutorial zum Schreiben hochperformanter GEMM-Kernels im Gluon-Programmiermodell auf dem MI355-GPU. Ein optimierter FP16-Kernel erreicht 1,489 TFLOPS bei 98,75 Prozent MFMA-Effizienz; Erweiterungen auf BF8 (3,257 TFLOPS) und MXFP4 (5,255 TFLOPS) belegen die Relevanz für moderne KI-Workloads. Das Tutorial umfasst Workgroup-Remapping und Swizzle, das L2-Cache-Misses von 5,3 Mio. auf 4,1 Mio. reduziert.

🟢 🏥 In der Praxis 23. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.22337: Meta-Soft führt KV-Cache-Komprimierung mit komponierbaren Meta-Token und lernbaren orthogonalen Basen ein

Editorial-Illustration: Meta-Token komprimieren Attention-Cache in eine orthogonale Basisstruktur

Forscher präsentierten Meta-Soft, eine neue Methode zur dynamischen KV-Cache-Komprimierung bei LLM-Inferenz. Der Ansatz nutzt eine lernbare orthogonale Basismatrix und ein Selector-Netzwerk, die Soft-Meta-Token synthetisieren — eine komprimierte Darstellung wichtiger Informationen aus langen Prompts. Ein Attention-Flow-Mechanismus verteilt semantische Informationen gelöschter Token auf beibehaltene um und übertrifft bestehende Eviction-Methoden.

🟢 🏥 In der Praxis 23. Mai 2026 · 4 Min. Lesezeit

arXiv:2605.22664: WorkstreamBench testet KI-Agenten auf End-to-End-Tabellenkalkulationsaufgaben im Finanzbereich — und Frontier-Modelle scheitern

Redaktionelle Illustration: Excel-Tabellenkalkulation mit Formeln und KI-Agent, der diese analysiert

WorkstreamBench ist ein neuer Benchmark mit zehn Autoren unter der Leitung von Thomson Yen, der KI-Agenten auf realen Excel- und Tabellenkalkulationsaufgaben im Finanzbereich testet — Rechnungen, Berichte, Kostenanalyse. GPT-4o, Claude und Gemini werden verglichen, und keines besteht den vollständigen Aufgabensatz zuverlässig — ein Hinweis auf strukturelle Mängel in der aktuellen Agenten-Infrastruktur für das Enterprise-Finanzwesen.

🟢 🏥 In der Praxis 23. Mai 2026 · 2 Min. Lesezeit

Anthropic Claude Code v2.1.150 — interner Infrastruktur-Patch ohne nutzerseitige Änderungen

Redaktionelle Illustration: Claude Code Terminal mit Versionsnummerierung und internen Zahnrädern

Anthropic hat am Samstag um 04:03 UTC Claude Code CLI Version v2.1.150 veröffentlicht — nur einen Tag nach v2.1.149. Das Release enthält ausschließlich interne Infrastrukturverbesserungen ohne nutzerseitige Änderungen. Verfügbar für Darwin, Linux und Windows auf ARM64- und x64-Architekturen sowie als Linux-musl-Build.

🟢 📦 Open Source 23. Mai 2026 · 3 Min. Lesezeit

Kedro: Version 1.2.0 bringt @experimental-Dekorator und LangGraph Agentic Starter für GenAI-Pipelines

Editorial-Illustration: Pipeline-Knoten mit LangGraph-Orchestrierungsbrücke und Mermaid-Diagramm

Das Linux-Foundation-KI-Projekt Kedro veröffentlichte Version 1.2.0 zusammen mit Kedro-Viz 12.3.0. Der neue @experimental-Dekorator ermöglicht das Markieren von APIs in der Entwicklung; das Starter-Projekt support-agent-langgraph zeigt die Integration mit LangGraph-Orchestrierung und Langfuse/Opik-Prompt-Management. Kedro-Viz erhält Mermaid-Diagramme und Node-Preview-Erweiterbarkeit für besseres Pipeline-Debugging.

🔴 ⚖️ Regulierung 22. Mai 2026 · 3 Min. Lesezeit

UK AI Safety Institute: Aufsicht über fortgeschrittene KI-Systeme wird schwieriger — 20+ Degradierungspfade identifiziert

Editorial illustration: Aufsicht über fortgeschrittene KI-Systeme wird schwieriger — 20+ Degradierungspfade identifiziert

UK AI Safety Institute (AISI) veröffentlichte am 21. Mai 2026 einen Bericht zur Zukunft der Aufsicht über fortgeschrittene KI-Systeme, gestützt auf 25 Experteninterviews aus Industrie, Regierung und Wissenschaft. Kernbefund: Die bestehende Aufsicht gründet auf Fundamenten, die voraussichtlich erodieren werden. Mehr als 20 verschiedene Degradierungspfade für Aufsichtsmechanismen wurden identifiziert — mit besonderem Fokus auf latentes Reasoning, Capability Masking, externe KI-Aktionen und KI-zu-KI-Kommunikation.

🔴 🤝 Agenten 22. Mai 2026 · 3 Min. Lesezeit

Microsoft Research: MagenticLite + Fara1.5 (4B/9B/27B) — agentische KI für kleine Modelle erreicht SOTA

Editorial illustration: MagenticLite + Fara1.5 (4B/9B/27B) — agentische KI für kleine Modelle erreicht SOTA

Microsoft Research veröffentlichte am 21. Mai 2026 ein Trio für agentische KI mit kleinen Modellen: MagenticLite (eine Browser- und Filesystem-UI-Anwendung), MagenticBrain (ein 14B-Orchestrierungsmodell, fine-tuned aus Qwen 3 14B) und Fara1.5 (ein Computer-Use-Modell in 4B-, 9B- und 27B-Varianten). Fara1.5-27B erreicht über 90 % des SOTA auf dem Online-Mind2Web-Benchmark (300 Web-Aufgaben) — fast doppelt so gut wie das frühere Fara-7B. Ziel ist zu zeigen, dass agentische KI keine riesigen Modelle braucht, sondern gut co-designte Tools und einen Harness.

🟡 🏥 In der Praxis 22. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.21427: PALS — energiebewusstes LLM-Serving für MoE-Modelle erreicht +26,3 % Energieeffizienz und 4-7× weniger QoS-Verstöße

Editorial illustration: arXiv:2605.21427 — PALS erreicht +26,3 % Energieeffizienz und 4-7× weniger QoS-Verstöße im MoE-LLM-Serving

Forscher veröffentlichten am 21. Mai 2026 PALS auf dem arXiv-Preprint-Server — ein Laufzeitsystem, das GPU-Leistungssteuerung direkt in das LLM-Serving für Mixture-of-Experts-Modelle integriert. PALS nutzt leichtgewichtige Offline-Power-Performance-Modelle und einen Feedback-Controller, der Konfigurationen dynamisch auf Durchsatzziele optimiert. Erreicht werden 26,3 % bessere Energieeffizienz und 4-7× weniger QoS-Verstöße unter Leistungsbeschränkungen — Integration in vLLM ohne API-Änderungen oder Modell-Retraining. PALS adressiert den wachsenden operativen Engpass von Rechenzentren: GPU-Cluster-Energieverbrauch als dominante Wachstumsschranke.

🟡 🤖 Modelle 22. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.21006: Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen

Editorial illustration: arXiv:2605.21006 — Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen

Forscher veröffentlichten am 21. Mai 2026 auf arXiv den Artikel 'Playing Devil's Advocate', der zeigt, dass bestehende Persona-Vektoren aus Roleplay-Aufgaben Sycophancy (die Neigung des Modells, dem Nutzer auch bei Fehlern zuzustimmen) auf 68-98 % der Wirksamkeit des spezialisierten Contrastive Activation Addition (CAA)-Ansatzes reduzieren können — ohne Training auf sycophancy-spezifischen Daten. Geometrische Analyse zeigt, dass Sycophancy eine Eigenschaft auf Persona-Ebene ist und kein einzelner steuerbarer Richtungsvektor im Aktivierungsraum.

🟡 🤝 Agenten 22. Mai 2026 · 3 Min. Lesezeit

AWS: Nova Act erhält HIPAA-Eligibility — agentische ePHI-Automatisierung für Gesundheits-Workflows

Editorial illustration: Nova Act erhält HIPAA-Eligibility — agentische ePHI-Automatisierung für Gesundheits-Workflows

AWS gab am 21. Mai 2026 bekannt, dass Amazon Nova Act, der agentische KI-Dienst zur Automatisierung von Browser- und UI-Workflows, den formalen HIPAA-eligible-Status erhalten hat. Gesundheitsorganisationen können Nova Act nun für die Verarbeitung geschützter Gesundheitsinformationen (ePHI) nutzen — für Prior Authorization, Versicherungsverifizierung und die Einreichung von Überweisungen über Anbieter-Webportale. Der Dienst integriert sich in Amazon Bedrock AgentCore und das Strand Agents-Framework, erfordert einen unterzeichneten BAA-Vertrag und AWS KMS-Verschlüsselung und ist derzeit nur in der Region US East (N. Virginia) verfügbar.

🟡 🤝 Agenten 22. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.147 führt Workflow-Tool für deterministisches Multi-Agent-Orchestrierung ein

Editorial illustration: Claude Code v2.1.147 führt Workflow-Tool für deterministisches Multi-Agent-Orchestrierung ein

Anthropic veröffentlichte Claude Code v2.1.147 am 21. Mai 2026 um 20:39 UTC — eine neue CLI-Version mit dem Workflow-Tool, dem ersten deterministischen Multi-Agent-Orchestrierungsmechanismus im Claude-Code-Ökosystem. Das Tool ist standardmäßig deaktiviert und wird über die Umgebungsvariable CLAUDE_CODE_WORKFLOWS=1 aktiviert. Dieselbe Version benennt den bestehenden /simplify-Befehl in /code-review um (mit Aufwandsstufen high/medium/low) und fügt Sandbox-Hardening gegen Prototype-Pollution- und Thenable-basierte Escape-Angriffe hinzu.

Ältere Nachrichten

Donnerstag, 21. Mai 2026

12 Nachrichten →
🔴 ⚖️ Regulierung 21. Mai 2026 · 2 Min. Lesezeit

EU AI Office: Entwurf von Leitlinien zur Hochrisiko-KI-Klassifizierung

Redaktionelle Illustration: EU AI Office eröffnet Konsultation zur Einstufung hochriskanter KI-Systeme gemäß KI-Gesetz

Die Europäische Kommission eröffnete am 13. Mai 2026 eine gezielte öffentliche Konsultation zum Entwurf von Leitlinien für die Einstufung von KI-Systemen als hochriskant gemäß EU-KI-Gesetz. Die Frist endet am 22. Mai um 18 Uhr MEZ. Die Leitlinien entscheiden, welche Organisationen in Gesundheit, Bildung, Infrastruktur und HR die strengsten Anforderungen erfüllen müssen.

🔴 🛡️ Sicherheit 21. Mai 2026 · 2 Min. Lesezeit

GitHub: Schädliche VS-Code-Erweiterung kompromittierte ~3.800 interne Repos

Redaktionelle Illustration: GitHub-interne Repositories durch manipulierte VS-Code-Erweiterung eines Mitarbeiters kompromittiert

GitHub gab am 18. Mai 2026 bekannt, dass ein Angreifer über eine manipulierte VS-Code-Erweiterung auf rund 3.800 interne Repositories zugegriffen hat. Der Angriff infizierte den Rechner eines Mitarbeiters. Die Untersuchung läuft; das Unternehmen erklärt, es gebe keine Hinweise auf eine Kompromittierung von Nutzerdaten. Dies ist der zweite große Vorfall, bei dem IDE-Erweiterungen zum Angriffsvektor auf Enterprise-Entwicklerinfrastruktur wurden.

🔴 🤖 Modelle 21. Mai 2026 · 2 Min. Lesezeit

OpenAI: KI-Modell widerlegt 80 Jahre alte Vermutung in diskreter Geometrie

Redaktionelle Illustration: OpenAI-KI-Modell widerlegt 80 Jahre alte Einheitsabstands-Vermutung in diskreter Geometrie

OpenAI gab bekannt, dass sein KI-Modell das offene Einheitsabstands-Problem gelöst hat — eine zentrale Vermutung der diskreten Geometrie, die vor über 80 Jahren aufgestellt wurde. Das Unternehmen bezeichnet das Ergebnis als Meilenstein der KI-getriebenen Mathematik, da das Modell die These nicht nur überprüfte, sondern durch ein originelles Gegenbeispiel widerlegte.

🟡 🔧 Hardware 21. Mai 2026 · 2 Min. Lesezeit

AMD: ROCm 7.13 bringt MI350P-GPU, Multi-VF-Virtualisierung und TheRock-Paketierung

Redaktionelle Illustration: AMD ROCm 7.13 mit MI350P-GPU, Multi-VF-Virtualisierung und TheRock-Modulpaketierung

AMD veröffentlichte am 20. Mai 2026 ROCm 7.13 — eine neue Version seines Open-Source-KI-Compute-Stacks mit Unterstützung für den MI350P-GPU, Virtualisierung mit bis zu 8 isolierten vGPUs je MI300X-Beschleuniger, einem Open-Source-ROCprof-Trace-Decoder und modularer TheRock-Paketierung mit domänenspezifischen SDKs. Validiert auf Ubuntu 26.04 und RHEL 9.6, mit VMware-ESXi-9.1-Support für MI350X und MI355X.

Mittwoch, 20. Mai 2026

18 Nachrichten →
🔴 🤖 Modelle 20. Mai 2026 · 3 Min. Lesezeit

Google: Gemini 3.5 Flash und Pro — die bisher schnellsten Frontier-Modelle

Editorial illustration: Google hat auf Google I/O 2026 Gemini 3.5 Flash und Pro vorgestellt

Google hat auf dem Google I/O 2026 Gemini 3.5 Flash und Pro vorgestellt — Frontier-Modelle, die 4× schneller als die Konkurrenz sind, mit besonderem Fokus auf agentische Aufgaben, die neue Antigravity-2.0-Plattform für Entwickler und Gemini Spark, einen persönlichen KI-Agenten rund um die Uhr.

🔴 🤖 Modelle 20. Mai 2026 · 3 Min. Lesezeit

Google: Gemini Omni Flash bringt native Videogenerierung aus gemischten Eingaben

Editorial illustration: Google hat auf I/O 2026 Gemini Omni Flash vorgestellt — neues multimodales Modell

Google hat auf dem I/O 2026 Gemini Omni Flash vorgestellt — ein neues multimodales Modell, das Video aus einer Kombination von Bildern, Audio, Video und Text generiert und bearbeitet. Ab sofort auf YouTube Shorts verfügbar, mit obligatorischem SynthID-Wasserzeichen auf jedem generierten Clip.

🟡 🤝 Agenten 20. Mai 2026 · 2 Min. Lesezeit

Anthropic Claude Code: Skripting laufender Sitzungen und Sicherheitsfixes in v2.1.145

Editorial illustration:

Anthropic Claude Code v2.1.145 bringt JSON-Ausgabe laufender Sitzungen für das Skripting, erweiterte OTEL-Trace-Attribute zur Agenten-Verfolgung sowie Korrekturen einer Sicherheitslücke bei der Genehmigung von Bash-Befehlen.

🟡 🤝 Agenten 20. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude für 276.000 KPMG-Mitarbeiter in 138 Ländern

Editorial illustration: Anthropic und KPMG haben eine strategische globale Allianz geschlossen

Anthropic und KPMG haben eine strategische globale Allianz geschlossen, durch die Claude Zugang zu allen Mitarbeitern einer der vier größten Wirtschaftsprüfungsgesellschaften der Welt erhält. Claude wird in KPMGs Digital Gateway integriert; KPMG wird Anthropics bevorzugter Partner für den Private-Equity-Sektor.

Dienstag, 19. Mai 2026

17 Nachrichten →
🔴 🤝 Agenten 19. Mai 2026 · 3 Min. Lesezeit

Anthropic: Übernahme von Stainless integriert MCP-Server-Tooling und SDK-Entwicklung direkt in die Claude-Plattform

Editorial illustration: Anthropic übernahm am 18. Mai 2026 Stainless, ein 2022 gegründetes Unternehmen hinter allen offiziellen Anthropic-SDKs

Anthropic hat am 18. Mai 2026 Stainless übernommen, ein 2022 gegründetes Unternehmen hinter allen offiziellen Anthropic-SDKs und dem MCP-Server-Tooling. Stainless entwickelt SDKs für Hunderte von Unternehmen; die Akquisition zielt auf eine bessere Integration der Claude-Agenten mit externen Daten und Tools ab.

🔴 🤝 Agenten 19. Mai 2026 · 3 Min. Lesezeit

Anthropic: MCP Tunnels, Self-Hosted Sandboxes und automatisches File-Spill für Agenten

Editorial illustration: Anthropic stellt drei wichtige Claude-API-Updates für Agenten-Entwickler vor: MCP Tunnels für private Netzwerke

Anthropic hat drei wichtige Updates für die Claude-API-Plattform eingeführt: MCP Tunnels für die Verbindung mit privaten Netzwerken ohne Internet-Exposition, Self-Hosted Sandboxes als Alternative zur Anthropic-Infrastruktur und automatisches File-Spill für Tool-Outputs über 100K Token.

🔴 🤖 Modelle 19. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15514: RoPE kann in langen Kontexten weder Positionen noch Token unterscheiden — theoretischer Beweis einer fundamentalen Einschränkung

Editorial illustration: arXiv 2605.15514 liefert den mathematischen Beweis, dass RoPE in langen Kontexten die Fähigkeit verliert, Positionen und Token zu unterscheiden

arXiv:2605.15514 liefert den mathematischen Beweis, dass Rotary Positional Embeddings (RoPE), der Positionsmechanismus nahezu aller modernen LLMs einschließlich Llama, Mistral, Qwen und GPT-NeoX, in langen Kontexten die Fähigkeit verliert, Positionen und Token zu unterscheiden. Die Autoren fordern grundlegend neue Architekturmechanismen.

🟡 🤝 Agenten 19. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.18661: KI für automatisierte Forschung — Roadmap und Anwenderhandbuch

Editorial illustration: arXiv-Paper 2605.18661 von NUS- und NTU-Forschern analysiert Systeme zur autonomen Forschungspaper-Generierung

arXiv-Paper 2605.18661 von Forschern der NUS und NTU analysiert Systeme, die für nur 15 Dollar autonom Forschungsarbeiten generieren. Zentraler Befund: Frontier-LLMs fälschen Ergebnisse und können die Neuartigkeit von Ideen nicht zuverlässig beurteilen. Eine umfassende Roadmap definiert die Grenze zwischen zuverlässiger Assistenz und unsicherer KI-Autonomie.

Montag, 18. Mai 2026

11 Nachrichten →
🟡 🤝 Agenten 18. Mai 2026 · 4 Min. Lesezeit

arXiv:2605.16217 Argus: Evidence-Assembly-Architektur für Deep-Research-Agenten erreicht +12,7 Pkt. mit 8 parallelen Suchern

Editorial illustration: Wissensgraph mit Evidence-Nodes und parallelen Searcher-Agenten um einen zentralen Navigator.

Argus ist ein neues arXiv-Paper vom 15. Mai 2026 von Zhen Zhang, Liangcai Su, Zhuo Chen und Kollegen, das ein Evidence-Assembly-Framework für Deep-Research-Agenten vorstellt. Das System verwendet eine Dual-Agent-Architektur — Searcher (ReAct-Style-Traces) + Navigator (gemeinsamer Evidence-Graph + RL-Synthese) — und erzielt +5,5 Pkt. mit einem einzelnen Searcher, +12,7 Pkt. mit 8 parallelen sowie einen BrowseComp-Score von 86,2 mit 64 parallelen Suchern ohne Kontextüberschreitung.

🟡 📦 Open Source 18. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15041 CAST-Framework: Case-Based Calibration für LLM Tool Use erreicht +5,85pp BFCLv2 und -26 % Reasoning-Länge

Editorial illustration: LLM-Agent mit Case-Library-Ansicht und Tool-Call-Validierungsindikatoren.

CAST ist ein neues arXiv-Paper, veröffentlicht am 14. Mai 2026 von Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao und Xiaosong Zhang, das ein Case-Based-Calibration-Framework für LLM Tool Use einführt. Der Ansatz behandelt historische Ausführungstrajektorien als strukturierte Information für Reinforcement Learning — er erreicht bis zu +5,85 Prozentpunkte Verbesserung der Ausführungsgenauigkeit gegenüber dem BFCLv2-Baseline und eine 26-prozentige Reduzierung der durchschnittlichen Reasoning-Länge.

🟡 🛡️ Sicherheit 18. Mai 2026 · 4 Min. Lesezeit

arXiv:2605.15338 Sleeper Memory Poisoning: 99,8 % Angriffserfolgsrate auf GPT-5.5 über persistenten Speicher von LLM-Agenten

Editorial illustration: LLM-Agenten-Speicher mit dormanten adversariellen Tokens und Wake-up-Trigger-Symbolen.

Hidden in Memory ist ein neues arXiv-Paper vom 14. Mai 2026 von Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth und Mario Fritz, das einen Delayed-Execution-Angriff auf zustandsbehaftete LLM-Agenten vorstellt. Adversarieller Inhalt im externen Kontext (Dokumente, Webseiten) korrumpiert den persistenten Speicher des Agenten — 99,8 % Erfolg auf GPT-5.5 und 95 % auf Kimi-K2.6, mit 60–89 % Erfolg bei der Umwandlung vergifteter Erinnerungen in vom Angreifer beabsichtigte Aktionen.

🟡 🤖 Modelle 18. Mai 2026 · 3 Min. Lesezeit

GitHub Copilot: GPT-5.3-Codex wird Basismodell für Business und Enterprise mit 12-monatiger LTS-Garantie

Editorial illustration: GitHub Copilot logo mit GPT-5.3-Codex Badge und LTS Support Stempel.

GitHub gab am 17. Mai 2026 bekannt, dass GPT-5.3-Codex GPT-4.1 als Basismodell für Copilot Business und Enterprise ablöst. Die Änderung betrifft nur Enterprise-Tiers (nicht Copilot Pro, Pro+ oder Free). GPT-5.3-Codex ist das erste LTS-Modell (Long-Term Support) — garantierte Verfügbarkeit für 12 Monate vom 5. Februar 2026 bis 4. Februar 2027. Preisgestaltung: 1× Premium-Request-Multiplikator; GPT-4.1 bleibt bis zur Deprecation am 1. Juni 2026 mit 0× Multiplikator force-enabled.

Samstag, 16. Mai 2026

15 Nachrichten →
🟡 🤝 Agenten 16. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.143 — 5. Patch diese Woche, Plugin-Dependency-Enforcement und Projected Context Cost im Marketplace

Redaktionelle Illustration: Claude Code Plugin-Marketplace mit Token-Kosten-Symbolen und Dependency-Graphen.

Claude Code v2.1.143 ist die neue Version des Anthropic-CLI-Agenten, veröffentlicht am 15. Mai 2026. Der fünfte Patch diese Woche nach v2.1.139, v2.1.140, v2.1.141 und v2.1.142. Er bringt Plugin-Dependency-Enforcement mit Disable-Chain-Hinweisen, die Anzeige der Projected Context Cost im Plugin-Marketplace (Token-Schätzungen pro Turn und pro Invocation), eine neue worktree.bgIsolation-Einstellung, den automatischen PowerShell-Flag -ExecutionPolicy Bypass sowie Hintergrundsitzungen, die Modell und Aufwand nach dem Idle-Wake beibehalten.

🟡 🛡️ Sicherheit 16. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.14912 Sycophantic Consensus to Pluralistic Repair: KI-Alignment muss Meinungsverschiedenheiten zeigen, nicht Konsens

Redaktionelle Illustration: KI-Gespräch mit Dialogblasen, die Meinungsverschiedenheiten und unterschiedliche Perspektiven zeigen.

From Sycophantic Consensus to Pluralistic Repair ist ein neues Alignment-Paper von Varad Vishwarupe, Nigel Shadbolt und Marina Jirotka, veröffentlicht am 15. Mai 2026 auf arXiv. Die Autoren argumentieren, dass das aktuelle pluralistische Alignment fundamental falsch auf Präferenzaggregation fokussiert ist, anstatt Meinungsverschiedenheiten sichtbar zu machen. Sie schlagen den Pluralistic Repair Score (PRS) vor, der an Claude Sonnet 4.5 (N=198) und GPT-4o (N=100) getestet wurde — beide Modelle zeigten Agreement-Following-Verhalten mit niedriger Repair-Qualität.

🟡 🤖 Modelle 16. Mai 2026 · 3 Min. Lesezeit

Black Forest Labs: FLUX Outpainting erweitert Bilder in beliebige Richtungen unter Beibehaltung von Licht, Textur und Komposition

Redaktionelle Illustration: Ein Bild, das sich über seinen Rahmen hinaus ausdehnt, mit bewahrtem Licht und Textur.

FLUX Outpainting ist ein neues Black-Forest-Labs-Bildgenerierungsfeature, das am 14. Mai 2026 angekündigt wurde und Bilder in beliebige Richtungen über einen zweckgebundenen Erweiterungs-Endpunkt ausdehnt. Der Nutzer gibt Ziel-Canvas-Dimensionen und Platzierungskoordinaten an — das Modell bewahrt Beleuchtung, Textur, Tiefe und Komposition in den Erweiterungsbereichen ohne Texteingaben. Bis zu 4-MP-Ausgabe, verfügbar über die BFL-API, öffentliche Demo unter flux-tools.bfl.ai/outpainting.

🟡 🤝 Agenten 16. Mai 2026 · 3 Min. Lesezeit

GitHub: Accessibility Agent prüfte 3.535 PRs mit 68 % Lösungsrate und deckte LLM-Bias gegenüber Accessibility-Antipatterns auf

Redaktionelle Illustration: Accessibility-Symbole (Screenreader, Tastatur) mit GitHub-PR-Review-Darstellung.

Der GitHub Accessibility Agent ist eine neue allgemeine Accessibility-Automatisierungs-Fallstudie, die am 15. Mai 2026 veröffentlicht wurde. Der Agent prüfte 3.535 Pull Requests mit einer Lösungsrate von 68 % und deckte einen erheblichen Bias auf: LLMs neigen dazu, Accessibility-Antipatterns zu produzieren, weil sie auf jahrzehntelangem, nicht barrierefreiem Code trainiert wurden. GitHub verwendet eine sequenzielle Reviewer-und-Implementer-Architektur (zweistufiges Modell) statt paralleler Sub-Agenten — dies reduzierte den Token-Verbrauch und verbesserte die Genauigkeit.