🟢 ✨ Zanimljivosti Objavljeno: · 1 min čitanja ·

arXiv:2605.30963: AMix-2 uvodi proteine kao prirodni modalitet u LLM-ove

arXiv:2605.30963 ↗

Urednička ilustracija: AMix-2 uvodi proteine kao prirodni modalitet u LLM-ove

AMix-2 je protein-tekst temeljni model koji razumijevanje proteina i dizajn sekvenci ujedinjuje u dijeljenom token-prostoru. Koristi block-wise difuzijski jezični backbone, uvodi benchmark ProteinArena te nadmašuje frontier LLM-ove i konkurira specijaliziranim modelima za proteine.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Novi rad na arXiv-u predstavlja AMix-2, temeljni model koji proteine uvodi kao prirodni modalitet unutar velikog jezičnog modela. Umjesto da koristi odvojene, zadacima specifične modele, AMix-2 prirodni jezik i proteinske sekvence smješta u dijeljeni token-prostor. Time ujedinjuje razumijevanje proteina i uvjetni dizajn sekvenci u jednom sustavu sposobnom za biološko zaključivanje.

Kako radi block-wise difuzijski backbone?

Osnova modela je block-wise diffusion jezični model. Taj pristup spaja kauzalno generiranje između blokova s dvosmjernim kontekstom i iterativnim pročišćavanjem unutar svakog bloka. Autori navode da takva struktura bolje odražava prirodu proteina nego strogo lijevo-desno generiranje. Kontrolirani eksperimenti pokazali su da difuzijski pristup općenito nadmašuje svoju autoregresivnu inačicu.

Što je ProteinArena?

Tim je uveo ProteinArena, sveobuhvatan okvir za evaluaciju. Sadrži time-aware i homology-aware protokole kroz različite zadatke razumijevanja i dizajna, s usporedbama prema klasičnim bioinformatičkim alatima, specijaliziranim proteinskim modelima i jezičnim modelima. Cilj je pravednije i realističnije mjerenje stvarne generalizacije.

Koliko je dobar?

Prema rezultatima, AMix-2 nadmašuje frontier LLM-ove te pokazuje konkurentnu izvedbu u odnosu na zadacima specifične proteinske modele. Rad obuhvaća 30 stranica, 4 slike i 12 tablica, a predan je 29. svibnja 2026. Iza njega stoji velik tim istraživača predvođen Keyueom Qiuom.

Česta pitanja

Što je AMix-2?
AMix-2 je temeljni model koji proteine tretira kao prirodni modalitet unutar velikog jezičnog modela, ujedinjujući razumijevanje proteina i dizajn njihovih sekvenci u istom modelu.
Što je ProteinArena?
ProteinArena je novi benchmark predstavljen u radu s time-aware i homology-aware protokolima za pravedno mjerenje zadataka razumijevanja i dizajna proteina.