Mittwoch, 6. Mai 2026

16 Nachrichten — 🔴 2 kritisch , 🟡 11 wichtig , 🟢 3 interessant

🤖 Modelle (4)

🔴 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

OpenAI: GPT-5.5 Instant wird neues Standard-ChatGPT-Modell mit weniger Halluzinationen

Redaktionelle Illustration: ChatGPT-Oberfläche mit der Bezeichnung GPT-5.5 Instant als neues Standard-Modell auf blauem Hintergrund

GPT-5.5 Instant ist das neue Standard-ChatGPT-Modell, das OpenAI am 5. Mai 2026 einführt. Das Modell liefert intelligentere und präzisere Antworten, weniger Halluzinationen und bessere Personalisierung — begleitet von einem System Card.

🟡 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.03871: EvoLM — Sprachmodelle, die sich ohne externe Überwachung selbst verbessern

Editorial illustration: zwei Sprachmodelle in einer Feedbackschleife, die Bewertungen und Verbesserungen ohne externen Supervisor austauschen

EvoLM ist eine Post-Training-Methode, die externe Überwachung vollständig eliminiert — ein Qwen3-8B-Rubric-Generator übertrifft GPT-4.1 auf RewardBench-2 um 25,7 % und SkyWork-RM um 16 %, während die trainierte Policy 69,3 % auf dem OLMo3-Adapt-Benchmark erreicht.

🟡 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

Google: Gemini-API-Dateisuche auf multimodale Bild- und Textsuche erweitert

Redaktionelle Illustration: Gemini API kombiniert Bilder und Text in einer gemeinsamen semantischen Suche über ein Embedding-Modell.

Google hat die Dateisuche in der Gemini API auf multimodale Suche erweitert und ermöglicht damit die native Einbettung und den Abruf von Bildern neben Textdokumenten über das Modell gemini-embedding-2. Hinzugekommen sind zwei neue Grounding-Felder und ereignisgesteuerte Webhook-Unterstützung für die Batch API.

🟡 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

Microsoft Research: DroidSpeak teilt KV-Cache zwischen feinabgestimmten LLM-Varianten für 4× höheren Durchsatz

Redaktionelle Illustration: Diagramm der KV-Cache-Teilung zwischen mehreren feinabgestimmten Varianten desselben Basis-LLM in einem Rechenzentrum.

Microsoft Research präsentierte auf dem NSDI 2026 DroidSpeak — ein System, das den KV-Cache zwischen architektonisch identischen feinabgestimmten LLM-Varianten teilt und bis zu 4× höheren Durchsatz bei minimalem Qualitätsverlust in Enterprise-Szenarien mit Dutzenden von Domänenmodellen erzielt.

📦 Open Source (1)

🔴 📦 Open Source 6. Mai 2026 · 2 Min. Lesezeit

Allen Institute: MolmoAct 2 ist das erste Open-Source-Robotik-Foundation-Modell, das GPT-5 und Gemini 2.5 Pro übertrifft

Redaktionelle Illustration: zweiarmiger Franka-Roboter mit offener Box im Labor, symbolisiert das Open-Source-Foundation-Modell MolmoAct 2

MolmoAct 2 ist ein Open-Source-Robotik-Foundation-Modell, das Allen Institute for AI am 5. Mai veröffentlicht hat. Das Modell erzielt 63,8/100 auf Embodied-Reasoning-Benchmarks, übertrifft GPT-5 und Gemini 2.5 Pro, beschleunigt die Inferenz um den Faktor 37 und ist das erste Basismodell mit eingebetteten bimanuellen Fähigkeiten.

⚖️ Regulierung (2)

🟡 ⚖️ Regulierung 6. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.04039: Sicherheit und Genauigkeit klinischer KI-Modelle folgen unterschiedlichen Skalierungsgesetzen

Editorial illustration: zwei getrennte Skalierungskurven über einem Röntgenbild — eine für Genauigkeit, eine für Sicherheit

Ein neues Paper zeigt, dass die Sicherheit klinischer KI-Modelle nicht denselben Skalierungsgesetzen folgt wie ihre Genauigkeit — sauberere Belege im RAG heben die Genauigkeit von 73,5 % auf 94,1 % und senken Hochrisiko-Fehler von 12 % auf 2,6 %, mehr als jeder Modellskalierungseffekt.

🟡 ⚖️ Regulierung 6. Mai 2026 · 2 Min. Lesezeit

UK AISI: neues MoU mit Microsoft für Frontier-KI-Sicherheit in 3 Bereichen

Redaktionelle Illustration: Handschlag zwischen einer britischen Regierungsinstitution und einem Technologieunternehmen mit Fokus auf Frontier-KI-Sicherheit.

Das UK AI Security Institute hat am 5. Mai eine Partnerschaft mit Microsoft zur Frontier-KI-Sicherheit bekannt gegeben. Die Zusammenarbeit umfasst drei Forschungsbereiche: Bewertung hochriskanter Fähigkeiten, Testen von Schutzmaßnahmen und Erforschung gesellschaftlicher Resilienz gegenüber konversationeller KI.

🤝 Agenten (4)

🟡 🤝 Agenten 6. Mai 2026 · 2 Min. Lesezeit

Anthropic: 10 fertige Finanzdienstleistungs-Agent-Templates + Claude Opus 4.7 mit 64,37 % auf dem Vals-AI-Finance-Benchmark

Redaktionelle Illustration: zehn abstrakte Karten mit Finanzagenten-Symbolen in zwei Gruppen — Research und Operations

Anthropic veröffentlicht 10 fertige Agent-Templates für Finanzdienstleistungen, darunter einen Pitchbook-Builder, einen KYC-Screener und einen Month-End-Closer. Die Templates sind als Plug-ins für Claude Cowork und Claude Code verfügbar. Claude Opus 4.7 erzielt 64,37 % auf dem Vals-AI-Finance-Benchmark.

🟡 🤝 Agenten 6. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.03675: MEMTIER — mehrstufige Speicherarchitektur gibt Langzeit-Agenten ihr Gedächtnis zurück

Editorial illustration: fünf horizontale Speicherebenen eines Agenten, verbunden durch Datenfluss vom episodischen JSONL bis zum semantischen Speicher

MEMTIER ist eine fünfstufige Speicherarchitektur für langfristig laufende autonome Agenten — auf dem LongMemEval-S-Benchmark mit Qwen2.5-7B steigt die Genauigkeit von 0,050 auf 0,382, und die Tool-Ausführungsrate hört nach 72 Stunden Betrieb auf zu sinken.

🟡 🤝 Agenten 6. Mai 2026 · 2 Min. Lesezeit

AWS: AgentCore Browser erhält OS-Level-Aktionen — 8 neue Primitiven

Redaktionelle Illustration: Agent klickt einen Systemdialog außerhalb der Browser-Grenze in der Amazon Bedrock AgentCore-Umgebung.

AWS hat am 5. Mai OS Level Actions für Amazon Bedrock AgentCore Browser angekündigt — eine Funktion, die Agenten die Interaktion mit der nativen Betriebssystemoberfläche außerhalb des DOM ermöglicht. Eingeführt werden 8 Aktionen und eine Action-Screenshot-Reaction-Schleife, ohne zusätzliche Konfiguration verfügbar.

🟢 🤝 Agenten 6. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.02503: DataClaw — prozessorientierter Benchmark misst die Arbeitsqualität von KI-Agenten in der explorativen Datenanalyse

Redaktionelle Illustration: KI-Agent führt Schritte der explorativen Datenanalyse in einem interaktiven Notebook mit Zwischenergebnissen durch.

DataClaw ist ein neuer Benchmark, der den gesamten Arbeitsprozess von KI-Agenten bei der explorativen Datenanalyse bewertet — nicht nur das Endergebnis — und so Schwächen von Agenten aufdeckt, die korrekte Resultate auf falschem Weg erzielen.

🔧 Hardware (1)

🟡 🔧 Hardware 6. Mai 2026 · 2 Min. Lesezeit

AMD: FarSkip-Collective beschleunigt MoE-Inferenz um 18–34 % auf AMD-GPUs

Redaktionelle Illustration: parallele Datenflüsse zwischen AMD-GPUs während der MoE-Inferenz ohne Leerlaufblöcke.

Das AMD-ROCm-Team stellte FarSkip-Collective vor — eine modifizierte MoE-Architektur, die GPU-Leerlaufzeiten bei Expert-Parallelism-Kommunikation eliminiert. Ergebnisse: 18 % geringerer TTFT für Llama-4 Scout, bis zu 1,34× Beschleunigung für DeepSeek-V3 und 11 % schnelleres Moonlight-Vortraining.

🏥 In der Praxis (2)

🟡 🏥 In der Praxis 6. Mai 2026 · 2 Min. Lesezeit

IBM: Enterprise Advantage erhält Context Studio — Providence Health reduziert Manager-Einstellungszeit um 90 %

Editorial illustration: IBM Enterprise Advantage Context Studio für KI-Agenten auf Basis von Organisationsdaten

IBM hat die Enterprise-Advantage-Plattform um den Context Studio erweitert — ein Werkzeug zum Aufbau von KI-Agenten auf Basis unternehmenseigener Daten unter Wahrung digitaler Souveränität. Providence Health reduzierte die Manager-Zeit für Einstellungsentscheidungen um 90 %, IBM prognostiziert Kostensenkungen von über 25 % innerhalb von 18 Monaten.

🟢 🏥 In der Praxis 6. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Code v2.1.131 — Windows-VS-Code-Aktivierung und Mantle-x-api-key-Hotfix

Editorial illustration: Claude Code v2.1.131 Hotfix für Windows VS Code und Mantle-Authentifizierung

Anthropic veröffentlichte Claude Code v2.1.131, ein Hotfix-Release, das zwei Fehler behebt: einen Absturz der VS-Code-Erweiterungsaktivierung unter Windows durch einen hartcodierten Build-Pfad und den fehlenden x-api-key-Header gegenüber Mantle-Inferenz-Endpunkten. Binärdateien wurden für alle gängigen Plattformen veröffentlicht.

💬 Community (1)

🟢 💬 Community 6. Mai 2026 · 2 Min. Lesezeit

CNCF: 46,7 % der Cloud-Native-Teams betreiben noch immer 2–3 parallele Observability-Stacks

Editorial illustration: CNCF Observability Survey 2026, 46,7 % der Teams betreiben mehrere parallele Stacks

CNCF veröffentlichte eine Februar-Umfrage unter 407 Cloud-Native-Fachleuten, die zeigt, dass 46,7 % der Organisationen weiterhin zwei oder drei Observability-Tools parallel betreiben; nur 7,4 % haben Unified Observability erreicht. Dashboard- und Alert-Konfiguration ist die größte Hürde, OpenTelemetry führt als Integrationshebel.

🛡️ Sicherheit (1)

🟡 🛡️ Sicherheit 6. Mai 2026 · 2 Min. Lesezeit

GitHub: Secret Scanning über MCP-Server erreicht GA — KI-Agenten erkennen Credentials vor dem Commit

Redaktionelle Illustration: Entwicklungsumgebung mit KI-Agent, der offengelegte API-Schlüssel im Code vor einem Commit markiert.

GitHub hat das Secret Scanning über den GitHub MCP Server als allgemein verfügbar erklärt — ein Tool, das KI-Coding-Agenten und Entwicklungsumgebungen die Erkennung offengelegter Credentials im Code vor dem Repository-Upload ermöglicht.

← Vorheriger Tag Nächster Tag →