Welches Problem löst die neue SageMaker-Funktion?

Der Einsatz eines generativen KI-Modells in der Produktion erfordert die Auswahl von GPU-Typ, Anzahl der Instanzen, Batch-Größe und Optimierungseinstellungen. Das manuelle Testen aller Kombinationen dauert Wochen. SageMaker AI automatisiert den Prozess nun und liefert Empfehlungen in Stunden statt Wochen.

Was ist NVIDIA AIPerf und wie wird es eingesetzt?

NVIDIA AIPerf ist ein Tool zur Messung der Leistung von KI-Modellen, das synthetische Anfragen generiert und Latenz, Durchsatz und Kosten misst. SageMaker AI ruft es intern über verschiedene GPU-Konfigurationen hinweg auf — H100, A100, L4 — und speichert die Ergebnisse automatisch in einer Vergleichstabelle.

Nach welchen Kriterien werden die Empfehlungen gerankt?

Empfehlungen können nach drei Kriterien gerankt werden: Gesamtkosten pro Inferenzaufruf, Latenz vom ersten bis zum letzten Token und maximaler Anfragedurchsatz pro Sekunde. Teams können die Konfiguration wählen, die ihrer Priorität entspricht — günstiger für Batch-Verarbeitung, schneller für interaktive Anwendungen.

SageMaker: automatische GenKI-Inferenz-Empfehlungen

Das Ende wochenlanger manueller Tests

Amazon SageMaker AI hat eine neue Funktion erhalten, die generative KI-Modelle automatisch über verschiedene GPU-Konfigurationen hinweg benchmarkt. Anstatt dass Teams manuell Kombinationen aus H100, A100, L4 und anderen GPU-Typen mit verschiedenen Batch-Größen und Optimierungen testen, generiert SageMaker nun in Stunden eine gültige Liste von Deployment-Konfigurationen.

Die Funktion verwendet im Hintergrund das NVIDIA AIPerf-Tool. AIPerf generiert synthetische Anfragen, die echte Lasten simulieren, misst die Latenz vom ersten bis zum letzten Token und berechnet den Anfragedurchsatz pro Sekunde. SageMaker führt Tests parallel über mehrere Konfigurationen aus und sammelt die Ergebnisse in einer einzigen Vergleichstabelle.

Drei Ranking-Kriterien

Ergebnisse können nach drei verschiedenen Kriterien gerankt werden, je nach Geschäftspriorität. Das erste Kriterium sind die Gesamtkosten pro Inferenzaufruf — berechnet aus der Kombination von Instanzpreis und durchschnittlicher Antwortgenerierungszeit. Das ist wichtig für Anwendungen mit hohem Abfragevolumen.

Das zweite Kriterium ist die Latenz. Interaktive Anwendungen wie Chatbots benötigen schnelle Time-to-First-Token und konsistente Generierungsgeschwindigkeit. Das dritte Kriterium ist der maximale Durchsatz — wie viele parallele Anfragen eine Konfiguration bedienen kann, bevor sie degradiert. Nützlich für Anwendungen, die Batch-Anfragen oder Daten verarbeiten.

Praktischer Nutzen für MLOps-Teams

Der typische Produktions-Deployment-Prozess sieht so aus: Das Team wählt ein Modell aus, trifft eine erste Hardware-Schätzung, führt einen Lasttest durch, entdeckt Leistungsprobleme, ändert die Konfiguration und wiederholt den Test. Diese Schleife wiederholt sich wochenlang. Die neue SageMaker-Funktion eliminiert diese Iterationen, da sie die meisten relevanten Konfigurationen in einem einzigen Durchlauf abdeckt.

Ein wichtiges Detail ist, dass SageMaker nicht nur eine „beste” Konfiguration zurückgibt, sondern eine vollständige Rangliste. Teams können den Trade-off zwischen Kosten und Latenz einsehen und fundierte Entscheidungen treffen. Eine Konfiguration, die beispielsweise 20 Prozent günstiger, aber 30 Prozent langsamer ist, kann für bestimmte Anwendungen akzeptabel sein.

Integration in den bestehenden Workflow

Die Funktion ist in den bestehenden SageMaker AI Workflow integriert. Der Nutzer übergibt das Modell und Einschränkungen — beispielsweise „maximale Kosten 0,01 USD pro Aufruf” oder „Latenz unter 500 ms” — und SageMaker gibt Konfigurationen zurück, die die Kriterien erfüllen. Die Ergebnisse enthalten Endpoint-Konfigurationen, die direkt gestartet werden können.

Das ist eine konkrete Automatisierung von MLOps-Entscheidungen, die bisher einen erfahrenen Ingenieur mit tiefem Wissen über GPU-Architekturen erforderten. Für Unternehmen ohne solche Spezialisten demokratisiert die Funktion den Zugang zu optimalen Deployment-Konfigurationen.

AWS SageMaker benchmarkt automatisch generative KI-Modelle und liefert optimale Inferenz-Konfigurationen

Das Ende wochenlanger manueller Tests

Drei Ranking-Kriterien

Praktischer Nutzen für MLOps-Teams

Integration in den bestehenden Workflow

Quellen

Verwandte Nachrichten