Mittwoch, 6. Mai 2026

16 Nachrichten — 🔴 2 kritisch , 🟡 11 wichtig , 🟢 3 interessant

← Vorheriger Tag Nächster Tag →

🤖 Modelle (4)

🔴 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

OpenAI: GPT-5.5 Instant wird neues Standard-ChatGPT-Modell mit weniger Halluzinationen

Redaktionelle Illustration: ChatGPT-Oberfläche mit der Bezeichnung GPT-5.5 Instant als neues Standard-Modell auf blauem Hintergrund

GPT-5.5 Instant ist das neue Standard-ChatGPT-Modell, das OpenAI am 5. Mai 2026 einführt. Das Modell liefert intelligentere und präzisere Antworten, weniger Halluzinationen und bessere Personalisierung — begleitet von einem System Card.

🟡 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.03871: EvoLM — Sprachmodelle, die sich ohne externe Überwachung selbst verbessern

Editorial illustration: zwei Sprachmodelle in einer Feedbackschleife, die Bewertungen und Verbesserungen ohne externen Supervisor austauschen

EvoLM ist eine Post-Training-Methode, die externe Überwachung vollständig eliminiert — ein Qwen3-8B-Rubric-Generator übertrifft GPT-4.1 auf RewardBench-2 um 25,7 % und SkyWork-RM um 16 %, während die trainierte Policy 69,3 % auf dem OLMo3-Adapt-Benchmark erreicht.

🟡 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

Google: Gemini-API-Dateisuche auf multimodale Bild- und Textsuche erweitert

Redaktionelle Illustration: Gemini API kombiniert Bilder und Text in einer gemeinsamen semantischen Suche über ein Embedding-Modell.

Google hat die Dateisuche in der Gemini API auf multimodale Suche erweitert und ermöglicht damit die native Einbettung und den Abruf von Bildern neben Textdokumenten über das Modell gemini-embedding-2. Hinzugekommen sind zwei neue Grounding-Felder und ereignisgesteuerte Webhook-Unterstützung für die Batch API.

🟡 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

Microsoft Research: DroidSpeak teilt KV-Cache zwischen feinabgestimmten LLM-Varianten für 4× höheren Durchsatz

Redaktionelle Illustration: Diagramm der KV-Cache-Teilung zwischen mehreren feinabgestimmten Varianten desselben Basis-LLM in einem Rechenzentrum.

Microsoft Research präsentierte auf dem NSDI 2026 DroidSpeak — ein System, das den KV-Cache zwischen architektonisch identischen feinabgestimmten LLM-Varianten teilt und bis zu 4× höheren Durchsatz bei minimalem Qualitätsverlust in Enterprise-Szenarien mit Dutzenden von Domänenmodellen erzielt.

📦 Open Source (1)

⚖️ Regulierung (2)

🤝 Agenten (4)

🟡 🤝 Agenten 6. Mai 2026 · 2 Min. Lesezeit

Anthropic: 10 fertige Finanzdienstleistungs-Agent-Templates + Claude Opus 4.7 mit 64,37 % auf dem Vals-AI-Finance-Benchmark

Redaktionelle Illustration: zehn abstrakte Karten mit Finanzagenten-Symbolen in zwei Gruppen — Research und Operations

Anthropic veröffentlicht 10 fertige Agent-Templates für Finanzdienstleistungen, darunter einen Pitchbook-Builder, einen KYC-Screener und einen Month-End-Closer. Die Templates sind als Plug-ins für Claude Cowork und Claude Code verfügbar. Claude Opus 4.7 erzielt 64,37 % auf dem Vals-AI-Finance-Benchmark.

🟡 🤝 Agenten 6. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.03675: MEMTIER — mehrstufige Speicherarchitektur gibt Langzeit-Agenten ihr Gedächtnis zurück

Editorial illustration: fünf horizontale Speicherebenen eines Agenten, verbunden durch Datenfluss vom episodischen JSONL bis zum semantischen Speicher

MEMTIER ist eine fünfstufige Speicherarchitektur für langfristig laufende autonome Agenten — auf dem LongMemEval-S-Benchmark mit Qwen2.5-7B steigt die Genauigkeit von 0,050 auf 0,382, und die Tool-Ausführungsrate hört nach 72 Stunden Betrieb auf zu sinken.

🟡 🤝 Agenten 6. Mai 2026 · 2 Min. Lesezeit

AWS: AgentCore Browser erhält OS-Level-Aktionen — 8 neue Primitiven

Redaktionelle Illustration: Agent klickt einen Systemdialog außerhalb der Browser-Grenze in der Amazon Bedrock AgentCore-Umgebung.

AWS hat am 5. Mai OS Level Actions für Amazon Bedrock AgentCore Browser angekündigt — eine Funktion, die Agenten die Interaktion mit der nativen Betriebssystemoberfläche außerhalb des DOM ermöglicht. Eingeführt werden 8 Aktionen und eine Action-Screenshot-Reaction-Schleife, ohne zusätzliche Konfiguration verfügbar.

🟢 🤝 Agenten 6. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.02503: DataClaw — prozessorientierter Benchmark misst die Arbeitsqualität von KI-Agenten in der explorativen Datenanalyse

Redaktionelle Illustration: KI-Agent führt Schritte der explorativen Datenanalyse in einem interaktiven Notebook mit Zwischenergebnissen durch.

DataClaw ist ein neuer Benchmark, der den gesamten Arbeitsprozess von KI-Agenten bei der explorativen Datenanalyse bewertet — nicht nur das Endergebnis — und so Schwächen von Agenten aufdeckt, die korrekte Resultate auf falschem Weg erzielen.

🔧 Hardware (1)

🏥 In der Praxis (2)

💬 Community (1)

🛡️ Sicherheit (1)

← Vorheriger Tag Nächster Tag →