Wie unterscheidet sich Nemotron 3 Nano Omni von gewöhnlichen multimodalen LLMs?

Die hybride MoE-Architektur (30B gesamt / 3B aktiv) mit Conv3D- und EVS-Komponenten ermöglicht die gleichzeitige Echtzeit-Verarbeitung von Video- und Audio-Eingaben zusammen mit Text in einem einzigen Modell, ohne Weiterleitung durch eine Kette separater Module.

NVIDIA Nemotron 3 Nano Omni: 30B-A3B MoE, 9× Throughput

Q: Was bedeutet die Rolle als "perception sub-agent"?

NVIDIA positioniert Nemotron 3 Nano Omni als Wahrnehmungsschicht, der mit den leistungsstärkeren Modellen Nemotron 3 Super und Ultra zusammenarbeitet. Nano übernimmt das visuelle und akustische Verständnis in Echtzeit, während Super/Ultra das komplexere Reasoning abdecken.

Am 28. April 2026 stellte NVIDIA Nemotron 3 Nano Omni vor — ein offenes multimodales KI-Modell, das Vision, Sprache und Text in einem einzigen System vereint. Das Modell wird als “perception sub-agent” positioniert, der mit den größeren Modellen Nemotron 3 Super und Ultra zusammenarbeitet: Nano übernimmt das Echtzeit-Verständnis von Video- und Audio-Eingaben, während Super/Ultra das komplexere Reasoning abdecken. Damit adressiert NVIDIA ein konkretes Problem bei KI-Agenten in der Produktion — die Latenz multimodaler Pipelines, in denen Eingaben durch separate ASR-, Vision-Encoder- und Text-LLM-Komponenten geleitet werden.

Was steckt in der Architektur?

30B-A3B hybrides Mixture-of-Experts — insgesamt 30 Milliarden Parameter, 3 Milliarden aktiv pro Inferenz. 256K Token Kontext. Spezifische Komponenten: Conv3D (3D-Faltung für Video) und EVS (Enhanced Visual System). Eingabe-Modalitäten: Text, Bilder, Audio, Video, Dokumente, Diagramme und Oberflächen (GUI-Screenshots). Ausgabe: Text.

Welche Zahlen legt NVIDIA vor?

Das Modell führt sechs Leaderboards für komplexes Document Intelligence sowie Video- und Audio-Verständnis an. Die wichtigste Kennzahl: 9× höherer Throughput als andere offene Omni-Modelle bei gleicher Interaktivität (Latency Budget). NVIDIA argumentiert, dass dies die Kosten von KI-Agenten in der Produktion direkt senkt, da weniger GPU-Stunden pro Arbeitseinheit benötigt werden.

Wer nutzt das Modell bereits?

NVIDIA hat konkrete Enterprise-Kunden bekannt gegeben, die von der Evaluierung in die Produktion übergegangen sind: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir und Pyler. Anwendungsfälle: Kundensupport, Dokumentenanalyse und Navigation von Computeroberflächen (GUI-Agenten). Weitere Unternehmen evaluieren das Modell: Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle und Zefr.

Wo ist es verfügbar?

HuggingFace, OpenRouter, NVIDIA NIM (build.nvidia.com als Microservice) und 25+ Partnerplattformen — einschließlich Day-Zero-Verfügbarkeit auf Amazon SageMaker JumpStart. NVIDIAs Distributionsstrategie ist aggressiv: Das Modell ist gleichzeitig Open Weights (HF), Inference-API (OpenRouter), NVIDIAs eigener Service (NIM) und eine Hyperscaler-Partnerschaft (AWS).

NVIDIA Nemotron 3 Nano Omni: offenes multimodales Modell 30B-A3B MoE mit 256K Kontext und 9× höherem Throughput als die Konkurrenz

Was steckt in der Architektur?

Welche Zahlen legt NVIDIA vor?

Wer nutzt das Modell bereits?

Wo ist es verfügbar?

Quellen

Verwandte Nachrichten