AMD FarSkip-Collective: 1,34× schnellere MoE-Inferenz

Das AMD-ROCm-Team stellte FarSkip-Collective vor — eine modifizierte MoE-Architektur, die GPU-Leerlaufzeiten bei Expert-Parallelism-Kommunikation eliminiert. Ergebnisse: 18 % geringerer TTFT für Llama-4 Scout, bis zu 1,34× Beschleunigung für DeepSeek-V3 und 11 % schnelleres Moonlight-Vortraining.

Was hat AMD angekündigt?

Das AMD-ROCm-Team stellte FarSkip-Collective vor — eine modifizierte MoE-Architektur (Mixture of Experts), die das Problem der GPU-Leerlaufzeiten bei der Expert-Parallelism-Kommunikation löst. Die Lösung nutzt „teilweise oder veraltete Aktivierungszustände, die bereits verfügbar sind”, um die nächste Schicht zu starten, während die Kommunikation parallel läuft — und eliminiert so blockierende Synchronisations-Lücken.

Was sind MoE und Expert Parallelism?

MoE ist eine Architektur, bei der pro Token nur eine Teilmenge der „Experten” (spezialisierte Teilnetzwerke) aktiviert wird, nicht das gesamte Modell. Expert Parallelism ist die Strategie, diese Experten über mehrere GPUs zu verteilen, was Kommunikation zwischen den Karten erfordert.

TTFT (Time to First Token) ist die Latenz vom Benutzeranfrage bis zum ersten Ausgabe-Token — die entscheidende Metrik für interaktive KI-Anwendungen.

Wie viel schneller läuft die Inferenz?

AMD berichtet konkrete Ergebnisse auf der ROCm-Plattform:

18 % geringerer TTFT für Llama-4 Scout
bis zu 1,34× Beschleunigung für DeepSeek-V3 (671 Milliarden Parameter)
11 % schnelleres Vortraining für das Moonlight-Modell
16 % zusätzliche Beschleunigung in Kombination mit Grouped-Query-Attention

Die Ergebnisse wurden auf AMD-Instinct-GPUs gemessen; der Ansatz verändert die MoE-Ausgaben nicht — die Genauigkeit bleibt gegenüber Standard-Basismodellen erhalten.

Warum ist die Überlappung wichtig?

Im klassischen Expert-Parallelism-Schema muss die GPU warten, bis die vorherige Schicht den Aktivierungsaustausch abgeschlossen hat, bevor die nächste startet. Dabei entsteht eine „Blase” — Zeit, in der Recheneinheiten leer laufen.

FarSkip-Collective überlapp diese Kommunikation mit der Berechnung der nächsten Schicht, sodass die GPU selten wartet. Das Ergebnis ist eine höhere durchschnittliche Hardware-Auslastung ohne zusätzliche Kosten.

Häufig gestellte Fragen

Was ist die MoE-Architektur?

Mixture of Experts ist eine Architektur, bei der pro Token nur eine Teilmenge spezialisierter Teilnetzwerke (Experten) aktiviert wird statt des gesamten Modells — das senkt den Rechenaufwand.

Wie viel Beschleunigung bringt DeepSeek-V3?

Bis zu 1,34× schnellere Ausführung für das 671-Milliarden-Parameter-Modell DeepSeek-V3 bei der Inferenz.

Leidet die Modellgenauigkeit?

Nein. AMD gibt an, dass die Genauigkeit gegenüber Standard-MoE-Basismodellen erhalten bleibt.

AMD: FarSkip-Collective beschleunigt MoE-Inferenz um 18–34 % auf AMD-GPUs

Was hat AMD angekündigt?

Was sind MoE und Expert Parallelism?

Wie viel schneller läuft die Inferenz?

Warum ist die Überlappung wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten