NVIDIA Nemotron 3 Nano Omni: offenes multimodales Modell 30B-A3B MoE mit 256K Kontext und 9× höherem Throughput als die Konkurrenz
Warum es wichtig ist
Nemotron 3 Nano Omni ist NVIDIAs neues offenes multimodales KI-Modell, das Vision, Sprache und Text in einem einzigen 30B-A3B Hybrid-Mixture-of-Experts-System mit 256K Kontext vereint. Es erzielt führende Genauigkeit auf sechs Leaderboards für Document Intelligence und Audio-Video-Verständnis bei 9× höherem Throughput als andere offene Omni-Modelle. Verfügbar auf HuggingFace, OpenRouter, NVIDIA NIM und 25+ Partnerplattformen; Foxconn, Palantir und sechs weitere Unternehmen nutzen das Modell bereits in der Produktion.
Am 28. April 2026 stellte NVIDIA Nemotron 3 Nano Omni vor — ein offenes multimodales KI-Modell, das Vision, Sprache und Text in einem einzigen System vereint. Das Modell wird als “perception sub-agent” positioniert, der mit den größeren Modellen Nemotron 3 Super und Ultra zusammenarbeitet: Nano übernimmt das Echtzeit-Verständnis von Video- und Audio-Eingaben, während Super/Ultra das komplexere Reasoning abdecken. Damit adressiert NVIDIA ein konkretes Problem bei KI-Agenten in der Produktion — die Latenz multimodaler Pipelines, in denen Eingaben durch separate ASR-, Vision-Encoder- und Text-LLM-Komponenten geleitet werden.
Was steckt in der Architektur?
30B-A3B hybrides Mixture-of-Experts — insgesamt 30 Milliarden Parameter, 3 Milliarden aktiv pro Inferenz. 256K Token Kontext. Spezifische Komponenten: Conv3D (3D-Faltung für Video) und EVS (Enhanced Visual System). Eingabe-Modalitäten: Text, Bilder, Audio, Video, Dokumente, Diagramme und Oberflächen (GUI-Screenshots). Ausgabe: Text.
Welche Zahlen legt NVIDIA vor?
Das Modell führt sechs Leaderboards für komplexes Document Intelligence sowie Video- und Audio-Verständnis an. Die wichtigste Kennzahl: 9× höherer Throughput als andere offene Omni-Modelle bei gleicher Interaktivität (Latency Budget). NVIDIA argumentiert, dass dies die Kosten von KI-Agenten in der Produktion direkt senkt, da weniger GPU-Stunden pro Arbeitseinheit benötigt werden.
Wer nutzt das Modell bereits?
NVIDIA hat konkrete Enterprise-Kunden bekannt gegeben, die von der Evaluierung in die Produktion übergegangen sind: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir und Pyler. Anwendungsfälle: Kundensupport, Dokumentenanalyse und Navigation von Computeroberflächen (GUI-Agenten). Weitere Unternehmen evaluieren das Modell: Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle und Zefr.
Wo ist es verfügbar?
HuggingFace, OpenRouter, NVIDIA NIM (build.nvidia.com als Microservice) und 25+ Partnerplattformen — einschließlich Day-Zero-Verfügbarkeit auf Amazon SageMaker JumpStart. NVIDIAs Distributionsstrategie ist aggressiv: Das Modell ist gleichzeitig Open Weights (HF), Inference-API (OpenRouter), NVIDIAs eigener Service (NIM) und eine Hyperscaler-Partnerschaft (AWS).
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
NVIDIA und Siemens Healthineers: NV-Raw2Insights-US lernt direkt aus raw ultrasound channel data und korrigiert Bilder in Echtzeit
arXiv:2604.21764: 'Thinking with Reasoning Skills' reduziert Reasoning-Token bei höherer Genauigkeit — ACL 2026 Industry Track
Thinking with Reasoning Skills (ACL 2026 Industry Track): weniger Token, höhere Genauigkeit durch Abruf von Reasoning-Skills