🟢 ✨ Interessantes Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2605.30963: AMix-2 führt Proteine als native Modalität in LLMs ein

arXiv:2605.30963 ↗

Redaktionelle Illustration: AMix-2 führt Proteine als native Modalität in LLMs ein

AMix-2 ist ein Protein-Text-Grundlagenmodell, das Proteinverständnis und Sequenzdesign in einem gemeinsamen Token-Raum vereint. Es nutzt einen blockweisen Diffusions-Sprach-Backbone, führt den Benchmark ProteinArena ein und übertrifft Frontier-LLMs, während es mit spezialisierten Proteinmodellen konkurriert.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Eine neue Arbeit auf arXiv stellt AMix-2 vor, ein Grundlagenmodell, das Proteine als native Modalität innerhalb eines großen Sprachmodells einführt. Statt getrennte, aufgabenspezifische Modelle zu verwenden, platziert AMix-2 natürliche Sprache und Proteinsequenzen in einem gemeinsamen Token-Raum. Damit vereint es Proteinverständnis und bedingtes Sequenzdesign in einem einzigen System, das zu biologischem Schlussfolgern fähig ist.

Wie funktioniert der blockweise Diffusions-Backbone?

Die Grundlage des Modells ist ein blockweises Diffusions-Sprachmodell. Dieser Ansatz verbindet kausale Generierung zwischen Blöcken mit bidirektionalem Kontext und iterativer Verfeinerung innerhalb jedes Blocks. Die Autoren geben an, dass eine solche Struktur die Natur von Proteinen besser widerspiegelt als eine streng von links nach rechts verlaufende Generierung. Kontrollierte Experimente zeigten, dass der Diffusionsansatz seine autoregressive Variante im Allgemeinen übertrifft.

Was ist ProteinArena?

Das Team führte ProteinArena ein, ein umfassendes Bewertungsframework. Es enthält time-aware- und homology-aware-Protokolle über verschiedene Aufgaben des Verständnisses und Designs hinweg, mit Vergleichen gegenüber klassischen Bioinformatik-Werkzeugen, spezialisierten Proteinmodellen und Sprachmodellen. Ziel ist eine fairere und realistischere Messung der tatsächlichen Generalisierung.

Wie gut ist es?

Den Ergebnissen zufolge übertrifft AMix-2 Frontier-LLMs und zeigt eine konkurrenzfähige Leistung gegenüber aufgabenspezifischen Proteinmodellen. Die Arbeit umfasst 30 Seiten, 4 Abbildungen und 12 Tabellen und wurde am 29. Mai 2026 eingereicht. Dahinter steht ein großes Forscherteam unter der Leitung von Keyue Qiu.

Häufig gestellte Fragen

Was ist AMix-2?
AMix-2 ist ein Grundlagenmodell, das Proteine als native Modalität innerhalb eines großen Sprachmodells behandelt und das Proteinverständnis sowie das Design ihrer Sequenzen im selben Modell vereint.
Was ist ProteinArena?
ProteinArena ist ein neuer in der Arbeit vorgestellter Benchmark mit time-aware- und homology-aware-Protokollen zur fairen Messung von Aufgaben des Proteinverständnisses und -designs.

Quellen