🤖 Modelle

35 Nachrichten

🟡 🤖 Modelle 27. April 2026 · 3 Min. Lesezeit

arXiv:2604.21764: 'Thinking with Reasoning Skills' reduziert Reasoning-Token bei höherer Genauigkeit — ACL 2026 Industry Track

Das Team von Guangxiang Zhao und Co-Autoren veröffentlichte am 23. April 2026 das Paper 'Thinking with Reasoning Skills: Fewer Tokens, More Accuracy', das auf dem ACL 2026 Industry Track angenommen wurde. Der Ansatz destilliert 'wiederverwendbare Reasoning-Skills' aus langem Chain-of-Thought-Denken und nutzt sie als retrieval-gesteuerte Abkürzung für neue Probleme, wodurch die Token-Anzahl deutlich reduziert und die Genauigkeit bei Coding- und Mathematikaufgaben verbessert wird.

🔴 🤖 Modelle 24. April 2026 · 3 Min. Lesezeit

DeepSeek veröffentlicht V4-Pro und V4-Flash: zwei Open-Source-Modelle mit einer Million Token Kontext und 80,6 auf SWE Verified

Editorial illustration: DeepSeek V4 Modelle — Module mit einer Million Token

DeepSeek veröffentlichte am 24. April 2026 V4-Pro (1,6B / 49B aktiv) und V4-Flash (284B / 13B aktiv), zwei Open-Source-Modelle mit einer Million Token Kontext. V4-Pro erzielte 80,6 auf SWE Verified, nahe an Opus 4.6, bei drastisch reduziertem Speicherbedarf.

🔴 🤖 Modelle 24. April 2026 · 3 Min. Lesezeit

OpenAI stellt GPT-5.5 vor: das intelligenteste Modell für Coding, Forschung und komplexe Datenanalyse durch Werkzeuge

Editorial illustration: KI-Modell — modeli

OpenAI hat am 23. April 2026 GPT-5.5 vorgestellt und beschreibt es als ihr bislang intelligentestes Modell. Es ist für komplexe Aufgaben wie Programmierung, Forschung und Datenanalyse durch Werkzeuge konzipiert. Der Modell-Launch wurde von einer System Card und einem speziellen Bio-Bug-Bounty-Programm begleitet.

🟡 🤖 Modelle 24. April 2026 · 3 Min. Lesezeit

Thinking with Reasoning Skills (ACL 2026 Industry Track): weniger Token, höhere Genauigkeit durch Abruf von Reasoning-Skills

Editorial illustration: Reasoning Skills — Schlussfolgermuster und Token

Ein Team um Zhao et al. veröffentlichte im ACL 2026 Industry Track einen Beitrag, der die Destillation wiederverwendbarer Reasoning-Skills aus extensiver Erkundung vorschlägt. Anstatt von Grund auf zu denken, ruft das Modell relevante Muster ab, was die Anzahl der Reasoning-Token reduziert und die Genauigkeit bei Coding- und Mathematikaufgaben erhöht.

🟡 🤖 Modelle 23. April 2026 · 2 Min. Lesezeit

Google gibt GA von gemini-embedding-2 bekannt: Erstes multimodales Embedding-Modell mit 5 Modalitäten in einem Raum

Redaktionelle Illustration: KI-Modell — modeli

Google hat die allgemeine Verfügbarkeit des gemini-embedding-2-Modells bekannt gegeben, das Text, Bilder, Video, Audio und PDF-Eingaben in einen einheitlichen Embedding-Raum abbildet. Das Modell befand sich seit dem 10. März 2026 in der Preview-Phase und ist nun für alle über die Gemini API verfügbar.

🟡 🤖 Modelle 23. April 2026 · 2 Min. Lesezeit

Microsoft AutoAdapt: Automatische LLM-Anpassung an Spezialdomänen in 30 Minuten und 4 Dollar

Microsoft Research stellte AutoAdapt vor, ein Framework, das die Anpassung allgemeiner Sprachmodelle an Spezialdomänen wie Medizin, Recht und Incident Response automatisiert. Das System wählt selbstständig zwischen RAG und Fine-Tuning, optimiert Hyperparameter und schließt die Arbeit in etwa 30 Minuten mit Zusatzkosten von rund 4 Dollar ab.

🟢 🤖 Modelle 23. April 2026 · 3 Min. Lesezeit

Apple stellt MANZANO vor — ein einheitliches multimodales Modell, das Bildverstehen und Bildgenerierung ausbalanciert

Editorial illustration: AI model — modeli

Apples Forschungsteam hat auf der Konferenz ICLR 2026 MANZANO vorgestellt, ein einheitliches multimodales Framework, das einen langjährigen Trade-off zwischen Bildverstehens-Fähigkeiten und Bildgenerierungsqualität adressiert. Das Modell verwendet einen hybriden Vision-Tokenizer, der kontinuierliche Embeddings für das Verstehen und diskrete Token für die Generierung erzeugt, einen gemeinsamen Encoder und zwei spezialisierte Adapter — wodurch der Qualitätsverlust reduziert wird, der typischerweise auftritt, wenn ein einzelnes Modell beide Aufgaben übernimmt.

🟢 🤖 Modelle 22. April 2026 · 2 Min. Lesezeit

MathNet: 30.676 Olympiade-Aufgaben aus 47 Ländern, SOTA-Modelle liegen noch zurück

Redaktionelle Illustration: Verbundene Knoten mit mathematischen Symbolen und Globusfragmenten aus 47 Ländern

Ein MIT-Team veröffentlichte MathNet, einen multimodalen Benchmark mit 30.676 olympiadischen Mathematikaufgaben aus 47 Ländern und 17 Sprachen. Gemini-3.1-Pro erreicht 78,4%, GPT-5 69,3%, und Embedding-Modelle haben erhebliche Schwierigkeiten, mathematisch äquivalente Probleme zu finden.

🟢 🤖 Modelle 22. April 2026 · 2 Min. Lesezeit

xAI Speech-to-Text-API verlässt Beta: allgemeine Verfügbarkeit für 25 Sprachen

Redaktionelle Illustration: Mikrofon und Audiowellenströme werden durch die Grok-API in Transkripte in 25 Sprachen umgewandelt

xAI hat bekannt gegeben, dass seine Speech-to-Text-API (STT) von der Beta-Phase in die allgemeine Verfügbarkeit übergeht. Der Dienst unterstützt 25 Sprachen, bietet Batch- und Streaming-Modus und ist ohne Warteliste verfügbar — womit der Sprach-Stack neben dem bereits allgemein verfügbaren Grok Voice Agent vervollständigt wird.

🔴 🤖 Modelle 21. April 2026 · 4 Min. Lesezeit

Claude Opus 4.7 und Haiku 4.5 allgemein verfügbar auf Amazon Bedrock: 27 Regionen und Self-Serve-Zugang für Unternehmen

Anthropic hat Claude Opus 4.7 und Haiku 4.5 in die allgemeine Verfügbarkeit (GA) innerhalb von Amazon Bedrock überführt. Beide Modelle sind nun in 27 AWS-Regionen aktiv, ohne Warteliste, über den standardmäßigen Messages-API-Endpunkt und mit Unterstützung für regionales und globales Request-Routing.

🟡 🤖 Modelle 21. April 2026 · 3 Min. Lesezeit

Anthropic stellt Claude Haiku 3 ein: Migration auf Haiku 4.5 ab 20. April verpflichtend

Editorialna ilustracija: Anthropic povlači Claude Haiku 3 iz produkcije: migracija na Haiku 4.5 obavezna od 20. travnja

Anthropic hat Claude Haiku 3 (Modell-ID claude-3-haiku-20240307) am 20. April 2026 offiziell aus der Produktion zurückgezogen. Alle API-Aufrufe an dieses Modell geben nun einen Fehler zurück. Die empfohlene Migration erfolgt auf Claude Haiku 4.5, und der Schritt ist Teil des im Februar 2026 angekündigten Deprecation-Zyklus.

🟢 🤖 Modelle 21. April 2026 · 4 Min. Lesezeit

Warum fördert Fine-Tuning Halluzinationen? Interferenz zwischen semantischen Repräsentationen, und die Lösung ist Self-Distillation SFT

Editorialna ilustracija: Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješen

Ein neues ArXiv-Paper enthüllt, dass Halluzinationen nach dem Fine-Tuning weder durch unzureichende Kapazität noch durch Behavior Cloning verursacht werden, sondern durch Interferenz zwischen überlappenden semantischen Repräsentationen. Die Lösung: Self-Distillation SFT, die den Output-Distributions-Drift reguliert und Fine-Tuning als Continual-Learning-Problem behandelt.

🟡 🤖 Modelle 19. April 2026 · 3 Min. Lesezeit

YAN: Mixture-of-Experts Flow Matching erreicht 40-fache Beschleunigung gegenüber autoregressiven Sprachmodellen mit nur 3 Sampling-Schritten

Redaktionelle Illustration: abstraktes Vektorfeld und parallele Strömungslinien eines generativen Modells

YAN ist ein neues generatives Sprachmodell, das eine Transformer- und Mamba-Architektur mit einem Mixture-of-Experts-Flow-Matching-Ansatz kombiniert — es erreicht mit nur 3 Sampling-Schritten eine mit autoregressiven Modellen vergleichbare Qualität, was eine 40-fache Beschleunigung gegenüber AR-Baselines und bis zu 1000-fach gegenüber Diffusions-Sprachmodellen ergibt. Das Modell zerlegt globale Transportgeometrien in lokal spezialisierte Vektorfelder.

🟢 🤖 Modelle 19. April 2026 · 2 Min. Lesezeit

IG-Search: Belohnung, die den Informationsgewinn misst, verbessert suchgestütztes Schlussfolgern mit 6,4 % Overhead

Redaktionelle Illustration: Informationsgewinn-Kurve und Suchpfeile durch Schlussfolgerungsschritte

IG-Search ist ein neuer Ansatz zum Training von KI-Modellen für suchgestütztes Schlussfolgern, der Information Gain (Informationsgewinn) als schrittweise Belohnung nutzt. Das Signal wird aus den eigenen Generierungswahrscheinlichkeiten des Modells abgeleitet, ohne externe Annotierungen. Qwen2.5-3B mit dieser Methode erreicht einen durchschnittlichen EM-Score von 0,430 auf 7 QA-Benchmarks — 1,6 Punkte über MR-Search und 0,9 Punkte über GiGPO bei einem Rechenaufwand von nur 6,4 %.

🟢 🤖 Modelle 19. April 2026 · 3 Min. Lesezeit

Große Sprachmodelle erlernen den kürzesten Pfad in Graphen — scheitern jedoch, wenn der Aufgabenhorizont wächst

Redaktionelle Illustration: Graph mit Knoten und Pfaden, ein langer Horizont, der in der Ferne verblasst

Ein neues arXiv-Paper untersucht systematisch die Generalisierung großer Sprachmodelle beim Kürzeste-Pfade-Problem in zwei Dimensionen: Räumlicher Transfer auf ungesehene Karten funktioniert gut, aber Skalierung mit der Horizontlänge scheitert konsistent aufgrund rekursiver Instabilität. Die Ergebnisse haben direkte Implikationen für autonome Agenten — Trainingsdatenabdeckung definiert die Fähigkeitsgrenze, RL verbessert die Stabilität aber erweitert diese Grenze nicht, und Inferenz-Zeit-Skalierung hilft, löst aber das Längenskalierungsproblem nicht.

🟡 🤖 Modelle 18. April 2026 · 3 Min. Lesezeit

AWS Nova Destillation für die semantische Videosuche: 95 Prozent Kosteneinsparung und doppelt so schnelle Inferenz

AWS hat demonstriert, wie Modell-Destillation die Intelligenz des großen Nova-Premier-Modells in das kleinere Nova Micro für das Video-Such-Routing überträgt. Die Ergebnisse umfassen 95 Prozent Einsparungen bei den Inferenzkosten, 50 Prozent niedrigere Latenz (833 ms statt 1741 ms) und beibehaltene Qualität laut LLM-as-Judge-Bewertung (4,0 von 5). Das gesamte Training verwendete 10.000 synthetische Beispiele, die aus Nova Premier generiert wurden.

🟡 🤖 Modelle 18. April 2026 · 4 Min. Lesezeit

AWS Nova Multimodal Embeddings für die Videosuche: hybrider Ansatz liefert 90 Prozent Recall statt 51 Prozent

AWS Nova Multimodal Embeddings ist eine neue Architektur, die visuellen, Audio- und Textinhalt eines Videos gleichzeitig in einen gemeinsamen 1024-dimensionalen Vektorraum verarbeitet, ohne in Text umzuwandeln. Die Kombination von semantischem Embedding mit BM25-lexikalischer Suche ergibt 90 Prozent Recall@5 gegenüber 51 Prozent bei Baseline-Combined-Mode-Embeddings — ein Sprung von 30 bis 40 Prozentpunkten über alle Metriken.

🟡 🤖 Modelle 18. April 2026 · 4 Min. Lesezeit

NVIDIA Nemotron OCR v2: 34,7 Seiten pro Sekunde, fünf Sprachen in einem Modell, 28-mal schneller als PaddleOCR

NVIDIA hat Nemotron OCR v2 auf HuggingFace veröffentlicht — ein mehrsprachiges OCR-Modell, das 34,7 Seiten pro Sekunde auf einer einzelnen A100-GPU verarbeitet. Das ist 28-mal schneller als PaddleOCR v5. Das Modell unterstützt Englisch, Chinesisch, Japanisch, Koreanisch und Russisch in einer einzigen Architektur ohne Spracherkennung. Trainiert auf 12,2 Millionen synthetischen Bildern, sind Modell und Datensatz unter der NVIDIA Open Model License und CC-BY-4.0 verfügbar.

🟢 🤖 Modelle 18. April 2026 · 3 Min. Lesezeit

ArXiv AC/DC: automatische Entdeckung spezialisierter LLMs durch Koevolution von Modellen und Aufgaben

AC/DC ist ein neues Framework, das auf ICLR 2026 vorgestellt wurde und gleichzeitig LLM-Modelle durch Model Merging und Aufgaben durch synthetische Daten weiterentwickelt. Entdeckte Modellpopulationen demonstrieren eine breitere Expertise-Abdeckung als manuell kuratierte Modelle ohne explizite Benchmark-Optimierung. Modelle übertreffen größere Pendants bei geringerem GPU-Speicher, was ein neues Paradigma in der kontinuierlichen LLM-Entwicklung darstellt.

🔴 🤖 Modelle 17. April 2026 · 2 Min. Lesezeit

Anthropic: Claude Opus 4.7 bringt hochauflösende Vision, Task-Budgets und neuen Tokenizer — Opus 4 geht in Rente

Claude Opus 4.7 ist Anthropics neues Flagship-KI-Modell, das Opus 4.6 zum gleichen Preis von 5 Dollar für Eingabe und 25 Dollar für Ausgabe pro Million Tokens ersetzt. Es bringt dreifache Bildauflösung bis zu 2576 Pixeln, einen neuen Effort-Level xhigh für komplexe agentische Aufgaben, Task-Budgets die dem Modell eigenständiges Ressourcenmanagement in langen Loops ermöglichen, sowie einen völlig neuen Tokenizer.

🟡 🤖 Modelle 17. April 2026 · 3 Min. Lesezeit

ArXiv: Konforme Vorhersage deckt versteckte Unzuverlässigkeit von LLM-Richtern auf

Diagnosing LLM Judge Reliability ist eine neue Studie, die zeigt, dass aggregierte Zuverlässigkeitsmetriken für LLM-as-a-Judge-Systeme ernsthafte Per-Instanz-Inkonsistenzen verschleiern. Obwohl die Gesamtraten der Transitivitätsverletzungen 0,8 bis 4,1 Prozent betragen, haben 33 bis 67 Prozent der Dokumente mindestens einen transitiven Zyklus. Die Methode stützt sich auf konforme Vorhersagemengen mit theoretisch garantierter Abdeckung.

🟡 🤖 Modelle 17. April 2026 · 2 Min. Lesezeit

ArXiv: LongCoT-Benchmark zeigt, dass GPT 5.2 beim langen Chain-of-Thought-Reasoning nur 9,8 % erreicht

LongCoT ist ein neues Benchmark mit 2.500 von Experten entworfenen Problemen aus fünf Domänen, das die Fähigkeit zu langem Chain-of-Thought-Reasoning testet, das Zehntausende bis Hunderttausende von Tokens erfordern kann. Aktuelle Frontier-Modelle versagen dramatisch, wobei GPT 5.2 nur 9,8 Prozent und Gemini 3 Pro nur 6,1 Prozent erreicht, was eine kritische Schwäche für den autonomen Einsatz von KI-Agenten identifiziert.

🟡 🤖 Modelle 17. April 2026 · 2 Min. Lesezeit

Google Research: KI generiert synthetische Neuronen und spart 157 Personenjahre bei der Gehirnkartierung

Google Research hat das MoGen-System entwickelt, das das PointInfinity-Point-Cloud-Flow-Matching-Modell verwendet, um synthetische Neuronenformen zu generieren, die laut Experteneinschätzungen von echten nicht zu unterscheiden sind. Bereits 10 Prozent synthetischer Daten im Training reduzieren die Fehlerrate um 4,4 Prozent, was einer Einsparung von 157 Personenjahren manueller Arbeit bei der Kartierung eines vollständigen Mausgehirns entspricht.

🟡 🤖 Modelle 17. April 2026 · 3 Min. Lesezeit

Google Simula: synthetische Daten als Mechanismusdesign statt Beispiel-für-Beispiel-Optimierung

Simula ist Googles Framework, das die Generierung synthetischer Daten als Mechanismusdesign-Problem betrachtet und nicht als Optimierung einzelner Beispiele. Das System nutzt Reasoning-Modelle zum Aufbau hierarchischer Taxonomien und steuert vier unabhängige Achsen der Datengenerierung. Es ist bereits im Produktionsbetrieb — es treibt Gemini-Sicherheitsklassifikatoren, MedGemma, Android-Betrugserkennung und Spam-Filterung in Google Messages an.

🟡 🤖 Modelle 17. April 2026 · 2 Min. Lesezeit

OpenAI: GPT-Rosalind — erstes Frontier-Reasoning-Modell spezialisiert auf Life Sciences

GPT-Rosalind ist OpenAIs neues Frontier-Reasoning-Modell, das auf Forschung in den Biowissenschaften spezialisiert ist, einschließlich Wirkstoffentdeckung, Genomanalyse und Protein-Reasoning. Das Modell setzt den Trend zu spezialisierten KI-Systemen nach GPT-5.4-Cyber für Cybersicherheit fort und signalisiert OpenAIs strategische Entscheidung, vertikal optimierte Modelle für Schlüsselindustrien zu entwickeln.

🟡 🤖 Modelle 16. April 2026 · 2 Min. Lesezeit

Google: Gemini 3.1 Flash TTS bringt ausdrucksstarke KI-Sprache in mehr als 70 Sprachen

Google hat Gemini 3.1 Flash TTS lanciert, ein neues Text-to-Speech-Modell mit Unterstützung für mehr als 70 Sprachen und einem Elo-Wert von 1.211 auf der Artificial-Analysis-Rangliste. Die Schlüsselinnovation sind Audio-Tags — das Einbetten von Natural-Language-Befehlen direkt in den Text zur präzisen Steuerung von Stimme, Intonation und Emotionen. Das Modell ist auf Google AI Studio, Vertex AI und Google Vids verfügbar, mit SynthID-Wasserzeichen zur Erkennung KI-generierter Audioinhalte.

🟢 🤖 Modelle 16. April 2026 · 2 Min. Lesezeit

ArXiv: Numerische Instabilität in LLMs — wie Gleitkomma-Fehler Chaos in Transformern erzeugen

Neue Forschungsarbeit analysiert rigoros, wie Rundungsfehler in der Gleitkommaarithmetik Chaos durch die Schichten der Transformer-Architektur propagieren. Die Arbeit identifiziert drei Verhaltensmodi — stabil, chaotisch und signaldominiert — und beweist, dass numerische Instabilität kein Fehler, sondern eine fundamentale Eigenschaft von LLMs ist, die die Reproduzierbarkeit in Produktionssystemen gefährdet.

🔴 🤖 Modelle 15. April 2026 · 2 Min. Lesezeit

Anthropic: Claude Sonnet 4 und Opus 4 werden am 15. Juni eingestellt

Anthropic hat die Abschaltung der ursprünglichen Modelle Claude Sonnet 4 und Claude Opus 4 angekündigt. Beide Modelle werden am 15. Juni 2026 von der API entfernt. Entwicklungsteams sollten so schnell wie möglich auf Version 4.6 migrieren.

🟡 🤖 Modelle 15. April 2026 · 2 Min. Lesezeit

ArXiv: Neuronen identifiziert, die für schädliche Antworten großer Sprachmodelle verantwortlich sind

Eine kausale Analyse der Mechanismen in LLMs zeigt, dass schädliche Inhalte in späteren Modellschichten entstehen, primär durch MLP-Blöcke. Eine kleine Menge von Neuronen in der letzten Schicht fungiert als Kontrollmechanismus für schädliche Antworten.

🟡 🤖 Modelle 15. April 2026 · 1 Min. Lesezeit

Google: Gemini Robotics-ER 1.6 bringt Instrumentenablesung und räumliches Verständnis

Google hat Gemini Robotics-ER 1.6 mit neuen Fähigkeiten zur Instrumentenablesung sowie verbessertem räumlichen und physikalischen Verständnis veröffentlicht. Die Vorgängerversion 1.5 wird am 30. April abgeschaltet.

🟡 🤖 Modelle 14. April 2026 · 2 Min. Lesezeit

ArXiv: Process Reward Agents — Echtzeit-Feedback verbessert KI-Schlussfolgerungen in der Medizin ohne Retraining

Forscher haben Process Reward Agents (PRA) vorgestellt, einen neuen Ansatz, der waehrend des KI-Schlussfolgerungsprozesses in medizinischen Domaenen schrittweises Feedback liefert. Das System funktioniert mit bestehenden Modellen ohne Retraining und erzielt bedeutende Ergebnisse auf medizinischen Benchmarks.

🟡 🤖 Modelle 13. April 2026 · 1 Min. Lesezeit

ArXiv PRA: 4B-Modell erreicht 80,8% auf medizinischem Benchmark — neuer SOTA fuer kleine Skala

Process Reward Agents ermoeglichen kleinen eingefrorenen Modellen (0,5B-8B), medizinisches Reasoning ohne jegliches Training signifikant zu verbessern — Qwen3-4B erreicht einen neuen State-of-the-Art von 80,8% auf MedQA.

🟡 🤖 Modelle 13. April 2026 · 1 Min. Lesezeit

ArXiv SPPO: PPO auf Sequenzebene loest das Credit-Assignment-Problem in langen Denkketten

Sequence-Level PPO formuliert LLM-Reasoning als kontextuelles Bandit-Problem um und erreicht die Leistung teurer Gruppenmethoden wie GRPO mit dramatisch weniger Ressourcen — ohne Multi-Sampling.

🟡 🤖 Modelle 11. April 2026 · 2 Min. Lesezeit

ArXiv SUPERNOVA: Reinforcement Learning auf natürlichen Anweisungen verbessert Reasoning um 52,8 %

Die neue Arbeit SUPERNOVA zeigt, dass die systematische Kuratierung bestehender Instruction-Tuning-Datensätze das Reasoning in LLMs erheblich verbessern kann. Auf SUPERNOVA trainierte Modelle erreichen eine relative Verbesserung von bis zu 52,8 % auf dem BBEH-Benchmark.

🟢 🤖 Modelle 10. April 2026 · 2 Min. Lesezeit

Sentence Transformers v5.4 unterstützt nun multimodale Embedding- und Reranker-Modelle

Die HuggingFace-Bibliothek Sentence Transformers hat Version 5.4 erhalten, die multimodale Embedding- und Reranker-Modelle einführt. Nutzer können nun Text, Bilder, Audio und Video in einen gemeinsamen Embedding-Raum abbilden und Cross-Modal-Ähnlichkeit berechnen — eine Vereinheitlichung der Suche über verschiedene Inhaltstypen hinweg.