Donnerstag, 30. April 2026

15 Nachrichten — 🔴 2 kritisch , 🟡 12 wichtig , 🟢 1 interessant

🤖 Modelle (4)

🔴 🤖 Modelle 30. April 2026 · 2 Min. Lesezeit

BioMysteryBench: Claude Mythos Preview löst bioinformatische Probleme, die selbst Experten nicht können – Opus 4.6 erreicht 77,4 % bei menschlich lösbaren Aufgaben

Redaktionelle Illustration: KI-Agent, der sequenzierte RNA-seq-Daten neben wissenschaftlichen Geräten analysiert

Anthropic veröffentlichte am 29. April 2026 BioMysteryBench, ein Evaluierungsrahmen mit 99 Expertenaufgaben aus der Bioinformatik mit objektivem Ground Truth aus experimentellen Daten. Claude Opus 4.6 erreicht rund 77,4 % Genauigkeit bei 76 menschlich lösbaren Problemen und 23,5 % bei 23 übermenschlichen Aufgaben, während Mythos Preview einige Probleme löst, die ein Panel menschlicher Experten nicht bewältigen konnte – Forscher bezeichnen dies als Wendepunkt für die KI in der Biowissenschaft.

🔴 🤖 Modelle 30. April 2026 · 2 Min. Lesezeit

NVIDIA Nemotron 3 Nano Omni: 30B-A3B MoE-Multimodal-Modell mit 9-fachem Durchsatz für KI-Agenten

Redaktionelle Illustration: multimodales KI-Modell, das Bild, Audio und Text in einer einheitlichen Architektur verarbeitet

NVIDIA stellte am 28. April 2026 Nemotron 3 Nano Omni vor – ein Open-Source-30B-A3B-Hybrid-Mixture-of-Experts-Modell, das Bild, Audio, Sprache, Video, Dokumente und GUI-Screenshots in einer einzigen Architektur mit 256K-Kontext vereint. Der Durchsatz ist 9-mal höher als bei anderen offenen Omni-Modellen bei gleicher Interaktivität; das Modell führt sechs Leaderboards für Dokument-, Video- und Audioverständnis an. Es ist auf Hugging Face, OpenRouter, build.nvidia.com und über 25 Partnerplattformen verfügbar; frühe Anwender sind Palantir, Foxconn und Eka Care.

🟡 🤖 Modelle 30. April 2026 · 3 Min. Lesezeit

ArXiv: Standard-Transformer mit Chain-of-Thought können nicht über TC^0-Komplexität hinaus schlussfolgern — Signpost-Token ermöglichen längengeneralisierbare Turing-Simulation

Redaktionelle Illustration: Transformer-Architektur mit einem Bruch in der Chain-of-Thought-Kette und Signpost-Symbolen

Ein neues ArXiv-Preprint von Kraus, Sarrof, Yaa, Koller und Hahn zeigt, dass Standard-Transformer mit Chain-of-Thought-Reasoning unter der strengeren Anforderung des längengeneralisierbaren Lernens keine Probleme jenseits der TC^0-Komplexität lösen können. Der empirische Erfolg von CoT impliziert in der Praxis keine theoretische Turing-Vollständigkeit. Die vorgeschlagene Lösung — dynamische Vokabularerweiterung plus Signpost-Token — ermöglicht eine längengeneralisierbare Simulation von Turing-Maschinen mit linearem CoT-Overhead.

🟡 🤖 Modelle 30. April 2026 · 2 Min. Lesezeit

PyTorch AutoSP: compilierbasiertes Tool konvertiert Training-Code automatisch in Sequence-Parallel-Variante für 100k+-Token-Kontexte

Redaktionelle Illustration: Token-Verteilung über mehrere GPU-Kerne mit einem Compiler-Symbol

Am 29. April 2026 veröffentlichte PyTorch AutoSP — ein compilierbasiertes Tool im DeepSpeed/DeepCompile-Ökosystem, das Standard-Single-GPU-Transformer-Training-Code automatisch in eine Sequence-Parallel-Variante umwandelt. Es eliminiert die Notwendigkeit, Token-Partitionierung und kommunikative Collective-Operationen für das Training von LLMs mit 100k+-Token-Kontexten manuell zu implementieren. Entwickelt von UIUC SSAIL Lab, Anyscale und Snowflake.

📦 Open Source (1)

🟢 📦 Open Source 30. April 2026 · 3 Min. Lesezeit

IBM Granite 4.1: Open-Source-Familie mit 3B/8B/30B Apache-2.0-Modellen, trainiert auf 15B Token, zeigt, dass ein dichtes 8B-Modell ein 32B-MoE-Modell ebenbürtig ist

Redaktionelle Illustration: Granitblöcke mit einem aufgeschlagenen Buch als Symbol der Open-Weights-Lizenz

Am 29. April 2026 veröffentlichte IBM im HuggingFace-Blog Details zum Aufbau der Granite-4.1-Modellfamilie — 3B, 8B und 30B Dense-Varianten unter der Apache-2.0-Lizenz. Trainiert auf ~15B Token durch eine 5-Phasen-Pipeline-Strategie mit einem 4-Phasen-RL unter Verwendung von GRPO+DAPO-Loss. Granite 4.1-8B Instruct erreicht oder übertrifft das frühere Granite 4.0-H-Small (32B-A9B MoE) auf den meisten Benchmarks — und zeigt, dass dichte Modelle bei gleichem Aktivierungsbudget MoE-Qualität erreichen.

🤝 Agenten (5)

🟡 🤝 Agenten 30. April 2026 · 3 Min. Lesezeit

ArXiv Odysseys: CMUs realistischer Web-Agenten-Benchmark zeigt, dass SOTA-Frontier-Modelle 44,5 % Erfolgsrate und 1,15 % Trajectory-Effizienz bei Langzeithorizontaufgaben erreichen

Redaktionelle Illustration: Webseiten in einem langen Aufgabennetzwerk mit Bewertungsrubriken verbunden

CMU-Forscher Lawrence Keunho Jang, Jing Yu Koh, Daniel Fried und Ruslan Salakhutdinov veröffentlichten am 27. April 2026 das ArXiv-Preprint Odysseys — ein Benchmark mit 200 Langzeithorizontaufgaben aus authentischen Browsing-Sitzungen im Live-Internet. Die rubrikbasierte Evaluierung (durchschnittlich 6,1 Rubriken pro Aufgabe) zeigt, dass die stärksten Frontier-Modelle nur 44,5 % Erfolgsrate und 1,15 % Trajectory-Effizienz erreichen und deckt massive Defizite aktueller Web-Agenten auf.

🟡 🤝 Agenten 30. April 2026 · 2 Min. Lesezeit

AWS Bedrock AgentCore: Serverloser MCP-Proxy mit IAM, OAuth 2.0 JWT und CloudWatch-Observability für Enterprise-Governance

Redaktionelle Illustration: serverlose Architektur mit einer Proxy-Schicht zwischen Agent und Tools

AWS veröffentlichte am 29. April 2026 eine Referenzarchitektur für die Bereitstellung eines benutzerdefinierten MCP-Proxys als serverlosen Workload auf Amazon Bedrock AgentCore Runtime. Der Proxy wird zwischen KI-Agenten und vorgelagerte MCP-Server gesetzt und ermöglicht das Injizieren von Governance-Kontrollen – Eingabevalidierung, PII-Schwärzung, Audit-Logging und Rate-Limiting – ohne bestehende Systeme zu modifizieren. Die Architektur nutzt das FastMCP-Framework für dynamische Tool-Erkennung, unterstützt IAM/SigV4 und OAuth 2.0 JWT-Authentifizierung und integriert sich mit CloudWatch und OpenTelemetry.

🟡 🤝 Agenten 30. April 2026 · 2 Min. Lesezeit

AWS Bedrock AgentCore Memory: drei Muster für Langzeitgedächtnis von Agenten auf Namespace-Ebene mit IAM-Zugriffskontrolle

Redaktionelle Illustration: Hierarchisches Agentengedächtnis mit Namespace-Trennwänden und einem Zugriffsschlüssel

Am 29. April 2026 veröffentlichte AWS Referenz-Architekturmuster zur Organisation des Langzeitgedächtnisses von Agenten im Bedrock AgentCore Memory Service. Drei zentrale Namespace-Muster decken verschiedene Anwendungsfälle ab: Actor-Scoped für Präferenzen und Fakten, Session-Scoped für Gesprächszusammenfassungen und Episodic with Reflection Hierarchy zur Verallgemeinerung von Erfahrungen zwischen Sitzungen. IAM-Condition-Keys ermöglichen strikte Zugriffskontrolle auf Namespace-Ebene.

🟡 🤝 Agenten 30. April 2026 · 2 Min. Lesezeit

LangChain Harness-Profile für Deep Agents: GPT-5.3 Codex springt von 33 % auf 53 % im tau2-Bench, Opus 4.7 von 43 % auf 53 %

Redaktionelle Illustration: Agenten-Framework mit austauschbaren Profilen für verschiedene Sprachmodelle

LangChain stellte am 29. April 2026 ein Harness-Profil-System für Deep Agents vor, das es ermöglicht, denselben Code ohne Änderungen mit Anthropic-, OpenAI- und Google-Modellen zu verwenden. Das Profil wendet automatisch modellspezifische System-Prompts, Tools und Middleware an. Im tau2-Bench stieg GPT-5.3 Codex von 33 % auf 53 % Genauigkeit, Claude Opus 4.7 von 43 % auf 53 % – Forscher schlussfolgern, dass ein einziges Harness nicht für jedes Modell optimal sein kann.

🟡 🤝 Agenten 30. April 2026 · 2 Min. Lesezeit

Mistral Medium 3.5 + Vibe: 128B Dense-Modell mit offenen Gewichten und asynchrone Cloud-Coding-Agenten für $1,5/$7,5 pro Million Token

Redaktionelle Illustration: Cloud-Plattform mit parallelen Coding-Agenten und asynchronen Sandbox-Containern

Mistral AI hat Mistral Medium 3.5 vorgestellt — ein dichtes 128-Milliarden-Modell mit 256k Kontext, 77,6 % auf SWE-Bench Verified und offenen Gewichten unter einer modifizierten MIT-Lizenz. Zusammen mit dem Modell wird Vibe eingeführt, eine asynchrone Cloud-Plattform für Coding-Agenten, die über die CLI oder Le Chat gestartet wird, sowie eine Vorschau des Le Chat Work Mode für Enterprise-Workflows. Das Modell kostet $1,5 Eingabe / $7,5 Ausgabe pro Million Token.

🏥 In der Praxis (3)

🟡 🏥 In der Praxis 30. April 2026 · 2 Min. Lesezeit

Anthropic Claude for Creative Work: Konnektoren für Blender, 50+ Adobe-Creative-Cloud-Tools, Autodesk Fusion, Ableton, SketchUp und Splice

Redaktionelle Illustration: KI-Assistent, der 3D-Modellierung, Audioproduktion und Grafikdesign verbindet

Anthropic kündigte am 28. April 2026 Claude-Konnektoren für professionelle Kreativsoftware in Zusammenarbeit mit Blender, Autodesk Fusion, Adobe (50+ Creative-Cloud-Tools), Ableton, Splice, Affinity und Canva, Resolume Arena und SketchUp an. Claude kann Python-Skripte für Blender schreiben, Resolume in Echtzeit für VJs steuern, Batch-Asset-Verarbeitung in Affinity automatisieren und den Splice-Beispielkatalog durchsuchen. Anthropic trat zudem dem Blender Development Fund als Patron bei; drei akademische Institutionen – RISD, Ringling College und Goldsmiths – starten Kurse, in denen Studierende das Arbeiten mit Claude erlernen.

🟡 🏥 In der Praxis 30. April 2026 · 2 Min. Lesezeit

Google ERA: KI-System für wissenschaftliche Forschung erreicht CDC-Spitzenplatz bei Hospitalisierungsprognosen, löst ein offenes kosmologisches Problem und verfolgt CO2 im 10-Minuten-Takt

Redaktionelle Illustration: Wissenschaftliche Werkzeuge und ein KI-Netz, verbunden in einer sternförmigen Konstellation verschiedener Domänen

Am 29. April 2026 stellte Google Research ERA (Empirical Research Assistance) vor — ein internes KI-System, das LLMs mit Rechentools kombiniert, um wissenschaftliche Forschung zu beschleunigen. Vier konkrete Ergebnisse aus unterschiedlichen Bereichen: Spitzenplatz auf der CDC-Rangliste für COVID/Grippe/RSV-Hospitalisierungsprognosen, sechs neue Lösungen für Gravitationsstrahlung kosmischer Strings, ein neuronales Netz zur Verfolgung des atmosphärischen CO2 alle 10 Minuten sowie interpretierbare neuronale Schaltkreise beim Zebrafisch.

🟡 🏥 In der Praxis 30. April 2026 · 3 Min. Lesezeit

EvalEval Coalition: KI-Evaluierung wird zum neuen Compute-Engpass — GAIA-Einzellauf 2.829 $, HAL-Leaderboard 40.000 $, akademische Auditoren stoßen an eine Budgetgrenze vor einer technischen

Redaktionelle Illustration: Eine Waage, die zu den Evaluierungskosten gegenüber den Trainingskosten kippt

Die EvalEval Coalition (Avijit Ghosh, Yifan Mai, Georgia Channing, Leshem Choshen) veröffentlichte am 29. April 2026 eine Analyse im HuggingFace-Blog, die zeigt, wie die Kosten für die Evaluierung von KI-Modellen explodiert sind. Ein einzelner GAIA-Lauf kostet 2.829 $, das HAL-Leaderboard 40.000 $ (k=8 Zuverlässigkeit 320.000 $), PaperBench rund 9.500 $ pro Agent. Statische Benchmarks komprimieren 100–200×, agentische nur 2–3,5× — eine Accountability-Barriere für unabhängige Auditoren.

💬 Community (1)

🟡 💬 Community 30. April 2026 · 2 Min. Lesezeit

CNCF State of AI in Projects: Claude Code und GitHub Copilot dominieren, zwei Drittel der Projekte ohne formale KI-Richtlinie

Redaktionelle Illustration: Datenvisualisierung einer Umfrage unter Mitwirkenden von Cloud-Native-Projekten zur KI-Tool-Nutzung

CNCF TAG Developer Experience veröffentlichte am 29. April 2026 vorläufige Ergebnisse einer Umfrage zur Nutzung von KI-Tools unter 133 Mitwirkenden aus fast 100 Cloud-Native-Open-Source-Projekten. Claude Code und GitHub Copilot sind die klaren Marktführer; fast 50 % der Mitwirkenden nutzen in IDE oder CLI integrierte KI, während nur 10 % noch auf einfache Chatbots mit manuellem Copy-Paste setzen. Zentraler Befund: 67 % der Projekte haben keine formale KI-Richtlinie, weniger als 4 % verbieten KI, und mehr als die Hälfte ist der Meinung, KI-Beiträge sollten eine Pflichtangabe erfordern.

🛡️ Sicherheit (1)

🟡 🛡️ Sicherheit 30. April 2026 · 3 Min. Lesezeit

ArXiv: Trainingsfreier Guardrail gegen sprachübergreifende Jailbreaks erreicht AUC 0,99 auf kuratierten Benchmarks, fällt aber bei Distribution-Shift auf 0,60–0,70

Redaktionelle Illustration: Ein Prompt wird durch Sprachen übersetzt und passiert ein semantisches Erkennungsraster

Das Team aus Alanova, Minko, Sadiekh und Kokuykin veröffentlichte am 28. April 2026 ein ArXiv-Preprint, das eine trainingsfreie Abwehr gegen sprachübergreifende Jailbreaks über semantische Codebooks vorstellt. Der Ansatz vergleicht mehrsprachige Embeddings von Anfragen mit einer festen englischen Basis bekannter Jailbreak-Prompts. Auf kuratierten Benchmarks erreicht er eine AUC von bis zu 0,99, fällt jedoch bei Distribution-Shift-Heterogenangriffen auf AUC 0,60–0,70 — und zeigt die Grenzen dieses Ansatzes auf.

← Vorheriger Tag Nächster Tag →