🤖 Modelle

92 Nachrichten

🟡 🤖 Modelle 22. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.21006: Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen

Editorial illustration: arXiv:2605.21006 — Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen

Forscher veröffentlichten am 21. Mai 2026 auf arXiv den Artikel 'Playing Devil's Advocate', der zeigt, dass bestehende Persona-Vektoren aus Roleplay-Aufgaben Sycophancy (die Neigung des Modells, dem Nutzer auch bei Fehlern zuzustimmen) auf 68-98 % der Wirksamkeit des spezialisierten Contrastive Activation Addition (CAA)-Ansatzes reduzieren können — ohne Training auf sycophancy-spezifischen Daten. Geometrische Analyse zeigt, dass Sycophancy eine Eigenschaft auf Persona-Ebene ist und kein einzelner steuerbarer Richtungsvektor im Aktivierungsraum.

🟢 🤖 Modelle 22. Mai 2026 · 3 Min. Lesezeit

Black Forest Labs: FLUX Erase übertrifft GPT Image-2 (68,5 %) und Finegrain (63,2 %) bei der promptlosen Objektentfernung

Editorial illustration: FLUX Erase übertrifft GPT Image-2 (68,5 %) und Finegrain (63,2 %) bei der promptlosen Objektentfernung

Black Forest Labs lancierte am 21. Mai 2026 FLUX Erase — ein Inpainting-Tool, das mit einer binären Maske Objekte, Schatten, Wasserzeichen und Texte aus Bildern entfernt und den Hintergrund ohne Textprompt rekonstruiert. Ein Benchmark auf 198 Testbildern zeigt Überlegenheit gegenüber GPT Image-2 (68,5 %) und Finegrain Eraser Standard (63,2 %). Das Tool ist über die BFL API und eine öffentliche Demo auf flux-tools.bfl.ai/erase verfügbar — Black Forest Labs positioniert sich als Spezialist für professionelle Creative-Workflow-Tools.

🔴 🤖 Modelle 21. Mai 2026 · 2 Min. Lesezeit

OpenAI: KI-Modell widerlegt 80 Jahre alte Vermutung in diskreter Geometrie

Redaktionelle Illustration: OpenAI-KI-Modell widerlegt 80 Jahre alte Einheitsabstands-Vermutung in diskreter Geometrie

OpenAI gab bekannt, dass sein KI-Modell das offene Einheitsabstands-Problem gelöst hat — eine zentrale Vermutung der diskreten Geometrie, die vor über 80 Jahren aufgestellt wurde. Das Unternehmen bezeichnet das Ergebnis als Meilenstein der KI-getriebenen Mathematik, da das Modell die These nicht nur überprüfte, sondern durch ein originelles Gegenbeispiel widerlegte.

🟢 🤖 Modelle 21. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.19762: ICML-2026-Paper behauptet, Code verbessert nicht das Mathe-Reasoning von LLMs

$Redaktionelle Illustration: ICML-2026-Paper zeigt, dass strukturierte Reasoning-Signale reinen Code für LLM-Mathematik-Reasoning übertreffen$

Ein bei ICML 2026 angenommener arXiv-Preprint zeigt durch kontrollierte Vortrainings-Experimente, dass ausführbarer Code allein die allgemeinen Reasoning-Fähigkeiten von LLMs nicht verbessert — Code stärkt das Programmieren stark, konkurriert aber im Standardmodus mit Mathematikaufgaben. Echter Fortschritt in der Mathematik entsteht durch domänenübergreifende strukturierte Reasoning-Traces (Code-Text und Math-Text-Mischungen), wie eine mechanistische Analyse von MoE-Modellen zeigt.

🔴 🤖 Modelle 20. Mai 2026 · 3 Min. Lesezeit

Google: Gemini 3.5 Flash und Pro — die bisher schnellsten Frontier-Modelle

Editorial illustration: Google hat auf Google I/O 2026 Gemini 3.5 Flash und Pro vorgestellt

Google hat auf dem Google I/O 2026 Gemini 3.5 Flash und Pro vorgestellt — Frontier-Modelle, die 4× schneller als die Konkurrenz sind, mit besonderem Fokus auf agentische Aufgaben, die neue Antigravity-2.0-Plattform für Entwickler und Gemini Spark, einen persönlichen KI-Agenten rund um die Uhr.

🔴 🤖 Modelle 20. Mai 2026 · 3 Min. Lesezeit

Google: Gemini Omni Flash bringt native Videogenerierung aus gemischten Eingaben

Editorial illustration: Google hat auf I/O 2026 Gemini Omni Flash vorgestellt — neues multimodales Modell

Google hat auf dem I/O 2026 Gemini Omni Flash vorgestellt — ein neues multimodales Modell, das Video aus einer Kombination von Bildern, Audio, Video und Text generiert und bearbeitet. Ab sofort auf YouTube Shorts verfügbar, mit obligatorischem SynthID-Wasserzeichen auf jedem generierten Clip.

🟡 🤖 Modelle 20. Mai 2026 · 2 Min. Lesezeit

Google: ERA — KI-System, das das Schreiben wissenschaftlicher Software automatisiert

Google hat in Nature ERA (Empirical Research Assistance) veröffentlicht — ein Gemini-gestütztes System, das per Tree-Search Tausende von Berechnungsansätzen bewertet und das Schreiben von Expertensoftware automatisiert. Die Plattform Computational Discovery steht Forschern bereits zur Verfügung.

🟢 🤖 Modelle 20. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.19660: OScaR — INT2-Quantisierung des KV-Cache ermöglicht 3× schnelleres Decoding

Editorial illustration: Forschende veröffentlichen OScaR, eine Methode zur Lösung des KV-Cache-Quantisierungsproblems in großen Sprachmodellen

Forschende haben OScaR veröffentlicht — eine Methode, die das grundlegende Problem der KV-Cache-Quantisierung in großen Sprachmodellen löst. Mit INT2-Präzision (nur 2 Bit pro Wert) erzielt sie nahezu verlustfreie Genauigkeit, 3× schnelleres Decoding, 5,3× weniger Speicher und 4,1× höheren Durchsatz gegenüber BF16 FlashDecoding-v2.

🔴 🤖 Modelle 19. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.15514: RoPE kann in langen Kontexten weder Positionen noch Token unterscheiden — theoretischer Beweis einer fundamentalen Einschränkung

Editorial illustration: arXiv 2605.15514 liefert den mathematischen Beweis, dass RoPE in langen Kontexten die Fähigkeit verliert, Positionen und Token zu unterscheiden

arXiv:2605.15514 liefert den mathematischen Beweis, dass Rotary Positional Embeddings (RoPE), der Positionsmechanismus nahezu aller modernen LLMs einschließlich Llama, Mistral, Qwen und GPT-NeoX, in langen Kontexten die Fähigkeit verliert, Positionen und Token zu unterscheiden. Die Autoren fordern grundlegend neue Architekturmechanismen.

🟡 🤖 Modelle 19. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude-API-Websuchtools liefert jetzt strukturierte Daten aus SEC-Einreichungen

Editorial illustration: Anthropic aktualisierte das Web-Search-Tool der Claude-API, um strukturierte SEC-Daten zurückzugeben

Anthropic hat am 18. Mai 2026 das Web-Search-Tool in der Claude-API aktualisiert, sodass es reichhaltigere und strukturiertere Daten aus SEC-Einreichungen zurückgibt — einschließlich 10-K-, 10-Q- und 8-K-Dokumenten. Das Upgrade erleichtert den Aufbau von Finanzagenten für Ertragsanalysen, Due-Diligence und Recherche mit zitierten Primärquellen.

🟢 🤖 Modelle 19. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.18732: Skalierungsgesetz für Halluzinationen — größeres Modell bedeutet nicht zwingend weniger Fehler

Editorial illustration: Skalierungsgesetz für LLM-Halluzinationen — Sigmoid-Kurve für faktischen Recall

Forscher testeten 38 Modelle an über 8.900 Referenzen und zeigten, dass der faktische Recall von LLMs einer Sigmoid-Kurve folgt: Parameteranzahl und Themenhäufigkeit in den Trainingsdaten erklären 60–94 % der Varianz. Halluzinationen sind nicht zufällig — sie sind vorhersehbar und messbar.

🟡 🤖 Modelle 18. Mai 2026 · 3 Min. Lesezeit

GitHub Copilot: GPT-5.3-Codex wird Basismodell für Business und Enterprise mit 12-monatiger LTS-Garantie

GitHub gab am 17. Mai 2026 bekannt, dass GPT-5.3-Codex GPT-4.1 als Basismodell für Copilot Business und Enterprise ablöst. Die Änderung betrifft nur Enterprise-Tiers (nicht Copilot Pro, Pro+ oder Free). GPT-5.3-Codex ist das erste LTS-Modell (Long-Term Support) — garantierte Verfügbarkeit für 12 Monate vom 5. Februar 2026 bis 4. Februar 2027. Preisgestaltung: 1× Premium-Request-Multiplikator; GPT-4.1 bleibt bis zur Deprecation am 1. Juni 2026 mit 0× Multiplikator force-enabled.

🟡 🤖 Modelle 16. Mai 2026 · 3 Min. Lesezeit

Black Forest Labs: FLUX Outpainting erweitert Bilder in beliebige Richtungen unter Beibehaltung von Licht, Textur und Komposition

Redaktionelle Illustration: Ein Bild, das sich über seinen Rahmen hinaus ausdehnt, mit bewahrtem Licht und Textur.

FLUX Outpainting ist ein neues Black-Forest-Labs-Bildgenerierungsfeature, das am 14. Mai 2026 angekündigt wurde und Bilder in beliebige Richtungen über einen zweckgebundenen Erweiterungs-Endpunkt ausdehnt. Der Nutzer gibt Ziel-Canvas-Dimensionen und Platzierungskoordinaten an — das Modell bewahrt Beleuchtung, Textur, Tiefe und Komposition in den Erweiterungsbereichen ohne Texteingaben. Bis zu 4-MP-Ausgabe, verfügbar über die BFL-API, öffentliche Demo unter flux-tools.bfl.ai/outpainting.

🟡 🤖 Modelle 15. Mai 2026 · 2 Min. Lesezeit

Amazon Nova 2 Sonic: Speech-to-Speech-Foundation-Modell mit Ende-zu-Ende-Latenz unter 500 ms und 30 ms Audio-Latenz

Redaktionelle Illustration: Sprachagent mit Schallwellen und Edge-Netzwerk-Grafik.

Amazon Nova 2 Sonic ist ein neues Speech-to-Speech-Foundation-Modell der zweiten Generation, das am 14. Mai 2026 über Amazon Bedrock angekündigt wurde. Es eliminiert den Bedarf an separaten Speech-to-Text- und Text-to-Speech-Diensten — Ende-zu-Ende-Latenz unter 500 ms, Audio-Latenz unter 30 ms über das Stream-Edge-Netzwerk, native Turn Detection, Barge-in-Unterstützung und Function Calling während des Gesprächs. Das Stream Vision Agents Framework abstrahiert das bidirektionale Audio-Stream-Management.

🟡 🤖 Modelle 15. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.15177 OpenDeepThink: paralleles Schlussfolgern via Bradley-Terry-Aggregation hebt Gemini 3.1 Pro um +405 Elo auf Codeforces

Editorial illustration: Parallele Reasoning-Zweige mit paarweisen Beurteilungssymbolen und Elo-Rating.

OpenDeepThink ist eine neue populationsbasierte Test-Time-Compute-Scaling-Methodik, veröffentlicht am 14. Mai 2026 auf arXiv von Shang Zhou und Mitarbeitern. Das Framework sampelt mehrere Reasoning-Kandidaten parallel und wählt den besten durch paarweise Bradley-Terry-Vergleiche statt durch punktweises LLM-Judging. Ergebnis: Gemini 3.1 Pro gewinnt +405 Elo auf Codeforces-Benchmarks über acht sequenzielle LLM-Call-Runden (~27 Minuten). Das Team veröffentlichte zudem den CF-73-Datensatz mit 73 von Experten bewerteten Codeforces-Problemen.

🟡 🤖 Modelle 14. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.13301 SU-01: 30B-Modell erreicht Gold-Medaillen-Niveau bei IMO 2025, USAMO 2026 und IPhO durch dreiphasiges Training

Editorial illustration: Medaillen-Podeste mit mathematischen Formeln und KI-Reasoning-Bäumen.

SU-01 ist eine neue Reasoning-Training-Methodik, die am 14. Mai 2026 auf arXiv veröffentlicht wurde (Yafu Li und 27 Co-Autoren, Korrespondenzautor Runzhe Zhan). Ein 30B-Parameter-A3B-Backbone erreicht Gold-Medaillen-Performance bei der International Mathematical Olympiad 2025, USAMO 2026 und International Physics Olympiad 2024-2025 durch drei sequenzielle Phasen: Reverse-Perplexity-Curriculum-SFT auf 340.000 Trajektorien, zweistufiges RL und Test-Time-Scaling. Reasoning-Ketten erreichen über 100.000 Tokens.

🟢 🤖 Modelle 14. Mai 2026 · 2 Min. Lesezeit

Allen Institute: AIMIP-Benchmark — KI-Klimamodelle 2× besser auf historischen Daten, scheitern aber bei langfristiger Erwärmung

Redaktionelle Illustration: Klimazeitreihen-Graphen mit KI-Modelllinien vs. historische Daten.

AIMIP (KI-Modellvergleichsprojekt) ist ein neuer Community-Benchmark für KI-Wetter- und Klimamodelle, veröffentlicht am 13. Mai 2026 vom Allen Institute zusammen mit NVIDIA, Google Research, University of Washington, University of Maryland und der ArchesWeather-Gruppe. Die Phase-1-Evaluierung von acht KI-Modellsimulationen zeigte eine Halbierung des Fehlers bei historischen Daten — aber auch eine ernste Unfähigkeit zur Generalisierung auf langfristige Erwärmungstrends.

🟢 🤖 Modelle 14. Mai 2026 · 2 Min. Lesezeit

Microsoft Research GridSFM: Foundation-Modell löst AC-Optimalleistungsfluss 100× schneller als DC-Approximation

Redaktionelle Illustration: Stromnetz mit KI-Foundation-Modell und Optimierungsgraph.

GridSFM ist ein neues kleines Foundation-Modell von Microsoft Research für Stromnetze, veröffentlicht am 13. Mai 2026. Es approximiert den AC-Optimalleistungsfluss in Millisekunden für Netze von 500 bis 80.000 Knoten — 100× schneller als DC-Approximation und 1.000× schneller als vollständige AC-Solver. Der mediane Kostengap beträgt 2,23 %, die Machbarkeitserkennung erreicht 94,5 %/96,1 %, und das Modell projiziert potenzielle Einsparungen von 20 Mrd. USD jährlich bei Engpasskosten.

🟡 🤖 Modelle 13. Mai 2026 · 2 Min. Lesezeit

Anthropic: Claude Opus 4.7 Fast Mode in der Research-Preview — Premium-Geschwindigkeit für das Flaggschiff-Modell

Redaktionelle Illustration: schnelle Token-Ströme durch neuronale Architektur unter Premium-Signal.

Claude Opus 4.7 Fast Mode ist ein neues Anthropic-API-Research-Preview-Feature vom 12. Mai 2026, das für das leistungsstärkste Anthropic-Modell eine deutlich schnellere Output-Token-Generierung zum Premium-Preis ermöglicht. Entwickler aktivieren den Modus mit dem Parameter speed="fast", dem Modell claude-opus-4-7 und dem Beta-Header fast-mode-2026-02-01. Zugang, Rate-Limits und Preise sind identisch mit der Opus 4.6 Fast Mode-Variante.

🟢 🤖 Modelle 13. Mai 2026 · 2 Min. Lesezeit

Microsoft Research: MatterSim synthetisierte TaP experimentell mit 152 W/m/K, MatterSim-MT erweitert Output über PES hinaus

Redaktionelle Illustration: Kristallmaterialstruktur mit thermischer Leitfähigkeitsdarstellung.

MatterSim ist ein neues Microsoft Research Foundation-Modell für Materialwissenschaften, dessen Ergebnisse am 12. Mai 2026 veröffentlicht wurden. Das Modell sagte tetragonales TaP vorher, das experimentell synthetisiert und mit 152 W/m/K gemessen wurde — nahe an Silizium. Die MatterSim-v1-Inferenz wurde um das 3–5-Fache beschleunigt, und das neue Multi-Task-Modell MatterSim-MT ergänzt Spannungstensoren, magnetische Momente, Born Effective Charges und dielektrische Matrizen.

🟡 🤖 Modelle 12. Mai 2026 · 2 Min. Lesezeit

vLLM: Open-Source-Inferenz-Engine belegt ersten Platz auf der Artificial-Analysis-Bestenliste

Editorial illustration: Open-Source-Inferenz-Engine belegt ersten Platz auf der Artificial-Analysis-Bestenliste

vLLM ist eine Open-Source-Inferenz-Engine, die durch aggressives Kernel-Fusion (33→10 Launches pro Schicht, 1,28-facher Speedup), ein benutzerdefiniertes EAGLE3-Draft-Modell für Speculative Decoding und Optimierungen des linearen Attention-Pfads den ersten Platz auf der Artificial-Analysis-Bestenliste für drei Frontier-Modelle — DeepSeek V3.2, MiniMax-M2.5 und Qwen 3.5 397B — belegt hat.

🟢 🤖 Modelle 12. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.07776: Unsicherheitsverfolgung in LLM-Reasoning-Traces — Fehler bereits aus den ersten 100 Token vorhersagbar

Editorial illustration: 2605.07776: Unsicherheitsverfolgung in LLM-Reasoning-Traces — Fehler bereits aus den ersten 100 Token vorhersagbar

arXiv:2605.07776 ist eine Untersuchung zur Unsicherheitsverfolgung in Reasoning-Traces großer Sprachmodelle. Die Autoren (Grünefeld, Højer, Mondorf, Plank, Rogers und Mitarbeiter) entwickelten ein Unsicherheits-Trace-Profil — einen kompakten Merkmalssatz, der korrekte Ergebnisse mit AUROC 0,807 vorhersagt, bereits aus den ersten wenigen hundert Token (AUROC 0,801).

🟡 🤖 Modelle 11. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.06635: LLM-Agenten zitieren, aber verifizieren nicht — Links 94 %+ gültig, Genauigkeit nur 39–77 %

Editorial illustration: 2605.06635: LLM-Agenten zitieren, aber verifizieren nicht — Links 94 %+ gültig, Genauigkeit nur 39–77 %

Neue Forschung testete 14 LLM-Modelle in Deep-Research-Aufgaben und deckte eine große Lücke auf: Links sind in 94 %+ der Fälle gültig, aber die faktische Genauigkeit der Zitate beträgt nur 39–77 %. Der Kernbefund: Die Zitiergenauigkeit sinkt um 42 %, wenn die Zahl der Tools von 2 auf 150 steigt — was die Annahme widerlegt, dass mehr Abrufe bessere Qualität bedeuten.

🟡 🤖 Modelle 11. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.07990: LLM Tool-Calling linear repräsentiert — Mean-Difference-Vektor ändert Auswahl zu 77-100 %

Editorial illustration: 2605.07990: LLM Tool-Calling linear repräsentiert — Mean-Difference-Vektor ändert Auswahl zu 77-100 %

Forscher von UCL, Holistic AI und Imperial College entdeckten, dass LLMs die Tool-Auswahl intern linear repräsentieren. Der Mean-Difference-Vektor — die Differenz der durchschnittlichen Aktivierungen zweier Tools — ändert bei Addition die Selektion mit 77-100 % Genauigkeit auf 12 getesteten Modellen (270M-27B Parameter), ohne jegliches Fine-Tuning.

🟢 🤖 Modelle 11. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.06660: VHG — verifikatorgestütztes Framework zur Generierung schwerer Matheaufgaben

$Editorial illustration: 2605.06660: VHG — verifikatorgestütztes Framework zur Generierung schwerer Matheaufgaben$

Das VHG-Framework (Verifier-backed Hard problem Generation) löst das Problem, gültige, schwere und originelle Mathematikaufgaben für LLM-Training zu erstellen. Es führt einen unabhängigen Verifikator in die Setter-Solver-Dualität ein — Three-Party-Self-Play garantiert sowohl Gültigkeit als auch Schwierigkeit. An Integralrechnung getestet, übertrifft VHG alle Baseline-Methoden deutlich.

🟢 🤖 Modelle 11. Mai 2026 · 1 Min. Lesezeit

arXiv:2605.07925: Value Induction bei LLMs — alle Werte erhöhen Sycophancy, auch positive

Editorial illustration: 2605.07925: Value Induction bei LLMs — alle Werte erhöhen Sycophancy, auch positive

Value Induction ist eine Post-Training-Technik, die bestimmte Werte (Hilfsbereitschaft, Harmlosigkeit, Ehrlichkeit) betont. Eine Studie in Findings of ACL 2026 zeigt, dass die Induktion positiver Werte die Sicherheit verbessert, ABER alle getesteten Werte anthropomorphe Sprache erhöhen und Modelle „validierend und sycophantisch” machen — unabhängig davon, welcher Wert betont wird.

🟡 🤖 Modelle 9. Mai 2026 · 2 Min. Lesezeit

Allen Institute: EMO — MoE-Sprachmodell mit natürlicher semantischer Modularität aus Daten

Redaktionelle Illustration: MoE-Sprachmodell-Diagramm mit nach semantischen Domänen gruppierten Experten

EMO ist ein neues MoE-Sprachmodell des Allen Institute mit 1 Mrd. aktiven und 14 Mrd. Gesamtparametern, trainiert auf 1 Billion Tokens. Experten organisieren sich selbst in semantische Domänen — bei 25 % aktiver Experten beträgt der Leistungsverlust nur 1 %.

🟡 🤖 Modelle 9. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.06638: ScaleLogic — RL-Compute folgt einem Potenzgesetz in der Schlusstiefe

Redaktionelle Illustration: Log-Log-Skala-Graph mit einer Linie, die Compute und Schlusstiefe verbindet

ScaleLogic ist ein synthetisches Framework, das zeigt, dass der für Long-Horizon-Reasoning benötigte RL-Compute einem Potenzgesetz mit der Tiefe folgt: T ∝ D^γ (R² > 0,99). Der Exponent γ liegt je nach logischer Ausdrucksstärke zwischen 1,04 und 2,60, und ausdrucksstärkeres Training liefert bis zu +10,66 Punkte bessere Downstream-Ergebnisse.

🔴 🤖 Modelle 8. Mai 2026 · 2 Min. Lesezeit

OpenAI: drei neue Realtime-Sprachmodelle in der API mit Reasoning und Übersetzung

Editorial illustration: drei neue Realtime-Sprachmodelle in der API mit Reasoning und Übersetzung

OpenAI stellte am 7. Mai 2026 drei neue Realtime-Sprachmodelle in der API vor: GPT-Realtime-2 mit GPT-5-class-Reasoning und einem Kontext von 128.000 Tokens, GPT-Realtime-Translate, das aus 70+ Eingangssprachen in 13 Ausgangssprachen übersetzt, sowie GPT-Realtime-Whisper für die Live-Sprachtranskription.

🟡 🤖 Modelle 8. Mai 2026 · 2 Min. Lesezeit

Google: Gemini 3.1 Flash-Lite wird allgemein verfügbar

Editorial illustration: Gemini 3.1 Flash-Lite wird allgemein verfügbar

Gemini 3.1 Flash-Lite ist seit dem 7. Mai 2026 als stabiler Produktions-Endpunkt über die Gemini API allgemein verfügbar. Das Modell ist für Geschwindigkeit, Skalierung und Kosteneffizienz optimiert; die Vorschauversion wird am 25. Mai 2026 abgeschaltet.

🟡 🤖 Modelle 7. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.03195: Terminus-4B — 4 Milliarden Parameter für Terminal-Execution auf Augenhöhe mit Claude Opus und GPT-5.3-Codex bei SWE-Bench Pro mit ~30 % weniger Haupt-Agent-Token

Editorial illustration: zwei konzentrische Kreise — kleineres 4B-Modell für Terminal und größeres Frontier-Modell für Planung, verbunden durch einen Delegationspfeil

Terminus-4B ist ein 4-Milliarden-Parameter-Qwen3-Fine-Tune, spezialisiert auf Terminal-Execution in Agenten-Systemen — auf dem SWE-Bench-Pro-Benchmark erreicht er Claude Sonnet/Opus und GPT-5.3-Codex und reduziert den Token-Verbrauch des Haupt-Agenten durch Isolation von Build/Test-Logs im Subagenten-Kontext um etwa 30 %.

🟡 🤖 Modelle 7. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.04908: Gosset mit kuriertem Pharma-Index übertrifft Frontier-LLMs um das 3,2-Fache

Editorial-Illustration: Gosset mit kuriertem Pharma-Index übertrifft Frontier-LLMs um das 3,2-Fache

Gosset ist eine spezialisierte KI-Plattform mit kuratierten Pharma-Daten, die im Vergleich zu vier Frontier-Systemen 3,2-mal mehr verifizierte Medikamente pro Anfrage lieferte — mit 100 % Präzision und vollständigem Recall bei zehn Nischen-Targets in Onkologie und Immunologie.

🟡 🤖 Modelle 7. Mai 2026 · 2 Min. Lesezeit

Google: Gemini API erhält multimodale Dateisuche für Bilder und Breaking Change im Interactions API

Editorial-Illustration: Gemini API erhält multimodale Dateisuche und Breaking Change im Interactions API

Google hat Gemini File Search auf multimodale Bildsuche mit dem Modell gemini-embedding-2 erweitert, mit media_id in Grounding-Metadaten für visuelle Zitierungen. Gleichzeitig wird ein Breaking Change im Interactions API angekündigt: outputs wird zu steps, mit neuem Standard ab 20.05.2026 und Entfernung des alten Schemas am 06.06.2026.

🔴 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

OpenAI: GPT-5.5 Instant wird neues Standard-ChatGPT-Modell mit weniger Halluzinationen

Redaktionelle Illustration: ChatGPT-Oberfläche mit der Bezeichnung GPT-5.5 Instant als neues Standard-Modell auf blauem Hintergrund

GPT-5.5 Instant ist das neue Standard-ChatGPT-Modell, das OpenAI am 5. Mai 2026 einführt. Das Modell liefert intelligentere und präzisere Antworten, weniger Halluzinationen und bessere Personalisierung — begleitet von einem System Card.

🟡 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

arXiv:2605.03871: EvoLM — Sprachmodelle, die sich ohne externe Überwachung selbst verbessern

Editorial illustration: zwei Sprachmodelle in einer Feedbackschleife, die Bewertungen und Verbesserungen ohne externen Supervisor austauschen

EvoLM ist eine Post-Training-Methode, die externe Überwachung vollständig eliminiert — ein Qwen3-8B-Rubric-Generator übertrifft GPT-4.1 auf RewardBench-2 um 25,7 % und SkyWork-RM um 16 %, während die trainierte Policy 69,3 % auf dem OLMo3-Adapt-Benchmark erreicht.

🟡 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

Google: Gemini-API-Dateisuche auf multimodale Bild- und Textsuche erweitert

Redaktionelle Illustration: Gemini API kombiniert Bilder und Text in einer gemeinsamen semantischen Suche über ein Embedding-Modell.

Google hat die Dateisuche in der Gemini API auf multimodale Suche erweitert und ermöglicht damit die native Einbettung und den Abruf von Bildern neben Textdokumenten über das Modell gemini-embedding-2. Hinzugekommen sind zwei neue Grounding-Felder und ereignisgesteuerte Webhook-Unterstützung für die Batch API.

🟡 🤖 Modelle 6. Mai 2026 · 2 Min. Lesezeit

Microsoft Research: DroidSpeak teilt KV-Cache zwischen feinabgestimmten LLM-Varianten für 4× höheren Durchsatz

Redaktionelle Illustration: Diagramm der KV-Cache-Teilung zwischen mehreren feinabgestimmten Varianten desselben Basis-LLM in einem Rechenzentrum.

Microsoft Research präsentierte auf dem NSDI 2026 DroidSpeak — ein System, das den KV-Cache zwischen architektonisch identischen feinabgestimmten LLM-Varianten teilt und bis zu 4× höheren Durchsatz bei minimalem Qualitätsverlust in Enterprise-Szenarien mit Dutzenden von Domänenmodellen erzielt.

🟡 🤖 Modelle 5. Mai 2026 · 3 Min. Lesezeit

ArXiv AgentFloor: Kleine Open-Weight-Modelle (0,27B–32B) reichen für kurzfristige Agenten-Aufgaben aus; GPT-5 behält Vorteil nur bei langfristiger Planung

Redaktionelle Illustration: Fähigkeitsleiter mit Modellen verschiedener Größen auf verschiedenen Stufen, Symbolik für Tool-Use-Evaluierung

Ranit Karmakar und Jayita Chatterjee präsentierten AgentFloor — ein deterministisches Netzwerk aus 30 Aufgaben, organisiert in sechs Fähigkeitsstufen, auf dem sie 16 Open-Weight-Modelle von 0,27 bis 32 Milliarden Parametern plus GPT-5 evaluierten. Fazit: Kleinere Modelle sind für kurzfristige, strukturierte Agenten-Aufgaben ausreichend, während Frontier-Modelle einen klaren Vorteil nur bei langfristiger Planung unter dauerhaften Einschränkungen behalten.

🟡 🤖 Modelle 5. Mai 2026 · 3 Min. Lesezeit

ArXiv Token Arena: kontinuierlicher Benchmark für Energie und Kognition zeigt 6,2-fachen Unterschied in Joule pro korrekter Antwort zwischen Endpunkten

Redaktionelle Illustration: Waage, die Energie und Kognition von KI-Inferenz-Endpunkten misst, Symbolik für mehrdimensionales Benchmarking

Yuxuan Gao, Megan Wang und Yi Ling Yu veröffentlichten am 1. Mai 2026 Token Arena — eine kontinuierliche Benchmarking-Plattform, die KI-Inferenz auf Endpunkt-Ebene evaluiert (78 Endpunkte, 12 Modellfamilien). Sie stellen fest, dass dasselbe Modell auf verschiedenen Endpunkten um bis zu 12,5 Punkte beim Math/Code-Benchmark variieren kann, um bis zu eine Größenordnung bei der Tail-Latenz und um den Faktor 6,2 bei Joule pro korrekter Antwort. Ergebnisse werden unter CC BY 4.0 veröffentlicht.

🟡 🤖 Modelle 5. Mai 2026 · 2 Min. Lesezeit

NIST CAISI: DeepSeek V4 Pro ist bisher fähigstes chinesisches KI-Modell, liegt aber 8 Monate hinter US-Frontier

Redaktionelle Illustration: KI-Modell auf einer Zeitlinie mit 8-monatigem Rückstand, Symbolik für unabhängige Evaluierung

Das US-amerikanische Center for AI Standards and Innovation (CAISI) beim NIST veröffentlichte am 1. Mai 2026 eine unabhängige Bewertung des Modells DeepSeek V4 Pro. Fazit: Es ist das bisher fähigste bewertete KI-System der Volksrepublik China, hinkt dem US-Frontier in den aggregierten Fähigkeiten jedoch um rund 8 Monate hinterher. Die Evaluierung erfolgte anhand nicht-öffentlicher Benchmarks in fünf Bereichen: Cybersicherheit, Softwareentwicklung, Naturwissenschaften, abstraktes Schlussfolgern und Mathematik.

🟢 🤖 Modelle 5. Mai 2026 · 3 Min. Lesezeit

arXiv:2605.02572: Lange Horizonte destabilisieren das LLM-Training — ICML-2026-Paper schlägt „Horizon Generalization” als Lösung vor

Editorial illustration: gebrochene Horizontlinie mit verteilten neuronalen Knoten und konvergierenden Datenströmen

Eine für ICML 2026 angenommene Arbeit weist empirisch nach, dass die Verlängerung des Aufgabenhorizonts erhebliche Instabilität im LLM-Training verursacht — bedingt durch Probleme bei Exploration und Credit Assignment. Vorgeschlagene Lösung: Verkürzung des Horizonts während des Trainings in Kombination mit einem expliziten „Horizon Generalization”-Mechanismus zur Inferenzzeit. Die Arbeit etabliert die ersten empirischen Regeln für die Skalierung des Aufgabenhorizonts bei Frontier-Modellen.

🟢 🤖 Modelle 4. Mai 2026 · 2 Min. Lesezeit

AdaMeZO: Adam-Stil LLM-Fine-Tuning ohne Speicherung von Gradientenmomenten im GPU-Speicher

AdaMeZO ist ein Optimierer nullter Ordnung, der die Vorteile des Adam-Algorithmus mit der Speichereffizienz des MeZO-Ansatzes für das Fine-Tuning großer Sprachmodelle kombiniert. Er nutzt ausschließlich Vorwärtsdurchläufe und erreicht bis zu 70 % weniger Durchläufe gegenüber MeZO bei verbesserter Konvergenz.

🟢 🤖 Modelle 4. Mai 2026 · 2 Min. Lesezeit

BWLA: 1-Bit-Quantisierung von Sprachmodellen mit 3,26-facher Beschleunigung und 70 % besseren Ergebnissen (ACL 2026)

BWLA ist ein neues Post-Training-Quantisierungsframework für große Sprachmodelle, das erstmals gleichzeitig 1-Bit-Gewichtspräzision und niedrig-Bit-Aktivierungen ohne signifikanten Genauigkeitsverlust erzielt. Auf dem Modell Qwen3-32B erreicht es eine Perplexität von 11,92 und eine 3,26-fache Beschleunigung gegenüber bisherigen Methoden.

🟡 🤖 Modelle 2. Mai 2026 · 3 Min. Lesezeit

Latent-GRPO: Stabile RL-Optimierung für Latent Reasoning — 7,86 Punkte auf GSM8K-Aug und 4,27 Punkte auf AIME bei 3-4× kürzeren Reasoning-Ketten

Redaktionelle Illustration: Kompression eines Reasoning-Netzwerks in einen verdichteten latenten Raum

Forscher stellen Latent-GRPO vor, einen stabilisierten RL-Ansatz für Latent Reasoning, bei dem Reasoning-Schritte in kontinuierliche Repräsentationen komprimiert werden. Sie identifizieren drei grundlegende Probleme einer direkten Anwendung von GRPO im Latent Space — Invalid Latent States, Misalignment zwischen Reward-Signal und Token-Updates sowie Invalid Averaged States — und lösen sie durch eine Kombination aus Invalid-Sample-Advantage-Masking, einseitigem Noise Sampling und der Auswahl des optimalen ersten Tokens auf dem korrekten Pfad. Ergebnisse: +7,86 Pass@1 auf GSM8K-Aug und +4,27 Punkte auf AIME bei 3-4× kürzeren Reasoning-Ketten.

🟡 🤖 Modelle 2. Mai 2026 · 2 Min. Lesezeit

GitHub stellt GPT-5.2 und GPT-5.2-Codex in Copilot am 1. Juni 2026 ein — Migration auf GPT-5.5 und GPT-5.3-Codex

Editorial illustration: GitHub Copilot dashboard s novim modelom koji zamjenjuje stari

GitHub kündigt die Einstellung von GPT-5.2 und GPT-5.2-Codex aus allen Copilot-Erfahrungen am 1. Juni 2026 an. Nutzer von Chat, Inline-Bearbeitung, Ask- und Agent-Modus sowie Code Completion wechseln zu GPT-5.5, während Codex-Nutzer zu GPT-5.3-Codex migrieren. Ausnahme ist Copilot Code Review, wo GPT-5.2-Codex weiterhin verfügbar bleibt. Enterprise-Administratoren müssen die neuen Modelle vor dem Stichtag manuell in den Modellrichtlinien aktivieren.

🟡 🤖 Modelle 2. Mai 2026 · 3 Min. Lesezeit

NIST CAISI-Evaluierung von DeepSeek V4 Pro: 8 Monate Rückstand gegenüber US-Frontier-Modellen in 9 Benchmarks und 5 Domänen

Editorial illustration: vaga koja uspoređuje AI modele iznad geopolitičke karte

Das Zentrum für KI-Standards und Innovation beim NIST (CAISI) hat eine unabhängige Evaluierung des chinesischen Modells DeepSeek V4 Pro über 9 Benchmarks in 5 Domänen veröffentlicht (Cybersicherheit, Software Engineering, Naturwissenschaften, abstraktes Schlussfolgern, Mathematik). Hauptbefund: V4 liegt 8 Monate hinter US-Frontier-Modellen zurück, insbesondere bei Schlussfolgerungs- und agentischen Aufgaben, die DeepSeek nicht in seinen eigenen technischen Bericht aufgenommen hat. Die Nutzungskosten sind in 5 von 7 Tests niedriger als bei GPT-5.4 mini.

🟢 🤖 Modelle 2. Mai 2026 · 2 Min. Lesezeit

KellyBench: KI-Agenten verwalten Wett-Bankroll durch die Premier-League-Saison — alle führenden Modelle verloren Geld

Editorial illustration: nogometni stadion s digitalnom analizom kvota

KellyBench ist ein neuer Benchmark zum Testen sequenzieller Entscheidungsfindung: KI-Agenten verwalten eine Wett-Bankroll durch die gesamte Premier-League-Saison 2023/24 und nutzen Statistiken, Aufstellungen und Marktquoten. Alle getesteten führenden Modelle verloren Geld, und Claude Opus 4.6 erzielte 26,5 % auf der Experten-Rubrik für Strategiesophistikation.

🔴 🤖 Modelle 1. Mai 2026 · 3 Min. Lesezeit

PyTorch SMG: CPU-GPU-Disaggregation beim LLM-Serving liefert 3,5× Output-Durchsatz für Llama 3.3 70B FP8, bereits im Produktionseinsatz bei Google Cloud, Oracle und Alibaba

Redaktionelle Illustration: Server-Rack mit GPUs und separater CPU-Gateway-Schicht, die sie über ein gRPC-Netzwerk verbindet

Die LightSeek Foundation präsentierte am 30. April 2026 im PyTorch-Blog Shepherd Model Gateway (SMG) — ein Rust-Gateway, das CPU-gebundene Aufgaben (Tokenisierung, MCP-Orchestrierung, Chat-Verlauf, multimodales Preprocessing) aus dem GPU-Prozess in eine separate gRPC-Schicht verlagert. Llama 3.3 70B FP8 erreicht 1.150 vs. 327 Output-Token/s (3,5× Durchsatz), und die Lösung ist bereits im Produktionseinsatz bei Google Cloud, Oracle Cloud, Alibaba Cloud und TogetherAI.

🟡 🤖 Modelle 1. Mai 2026 · 2 Min. Lesezeit

AstaBench Frühjahr 2026: Claude Opus 4.7 führt mit 58 % im wissenschaftlichen KI-Benchmark, GPT-5.5 halb so teuer

Redaktionelle Illustration: Leaderboard-Tabelle mit Leistungsgraphen von KI-Modellen bei wissenschaftlichen Aufgaben, neutrale Laborästhetik

Das Allen Institute veröffentlichte das aktualisierte AstaBench-Leaderboard mit 2.400 Problemen für KI-Agenten in der Wissenschaft. Claude Opus 4.7 führt mit 58,0 %, während GPT-5.5 mit 52,9 % bei halbem Kostenaufwand pro Problem abschneidet. Kernbefund: Gute Ergebnisse bei einzelnen Aufgaben bedeuten nicht automatisch robuste Ende-zu-Ende-wissenschaftliche Arbeit.

🟢 🤖 Modelle 1. Mai 2026 · 2 Min. Lesezeit

Anthropic schließt 1M-Kontext-Beta für Sonnet 4.5 und Sonnet 4 — Migration auf 4.6 erforderlich

Redaktionelle Illustration: Migrationspfeil zwischen zwei API-Versionsblöcken, minimalistische technische Ästhetik

Anthropic schloss am 30. April 2026 den Beta-Header für das Millionen-Token-Kontextfenster bei Claude Sonnet 4.5 und Sonnet 4. Anfragen, die 200.000 Token überschreiten, geben jetzt einen Fehler zurück. Nutzer müssen auf Sonnet 4.6 oder Opus 4.6 migrieren, wo das 1M-Kontextfenster ohne Beta-Header verfügbar ist.

Vollständiges Archiv ansehen →