arXiv:2605.30963: AMix-2 uvodi proteine kao prirodni modalitet u LLM-ove
AMix-2 je protein-tekst temeljni model koji razumijevanje proteina i dizajn sekvenci ujedinjuje u dijeljenom token-prostoru. Koristi block-wise difuzijski jezični backbone, uvodi benchmark ProteinArena te nadmašuje frontier LLM-ove i konkurira specijaliziranim modelima za proteine.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi rad na arXiv-u predstavlja AMix-2, temeljni model koji proteine uvodi kao prirodni modalitet unutar velikog jezičnog modela. Umjesto da koristi odvojene, zadacima specifične modele, AMix-2 prirodni jezik i proteinske sekvence smješta u dijeljeni token-prostor. Time ujedinjuje razumijevanje proteina i uvjetni dizajn sekvenci u jednom sustavu sposobnom za biološko zaključivanje.
Kako radi block-wise difuzijski backbone?
Osnova modela je block-wise diffusion jezični model. Taj pristup spaja kauzalno generiranje između blokova s dvosmjernim kontekstom i iterativnim pročišćavanjem unutar svakog bloka. Autori navode da takva struktura bolje odražava prirodu proteina nego strogo lijevo-desno generiranje. Kontrolirani eksperimenti pokazali su da difuzijski pristup općenito nadmašuje svoju autoregresivnu inačicu.
Što je ProteinArena?
Tim je uveo ProteinArena, sveobuhvatan okvir za evaluaciju. Sadrži time-aware i homology-aware protokole kroz različite zadatke razumijevanja i dizajna, s usporedbama prema klasičnim bioinformatičkim alatima, specijaliziranim proteinskim modelima i jezičnim modelima. Cilj je pravednije i realističnije mjerenje stvarne generalizacije.
Koliko je dobar?
Prema rezultatima, AMix-2 nadmašuje frontier LLM-ove te pokazuje konkurentnu izvedbu u odnosu na zadacima specifične proteinske modele. Rad obuhvaća 30 stranica, 4 slike i 12 tablica, a predan je 29. svibnja 2026. Iza njega stoji velik tim istraživača predvođen Keyueom Qiuom.
Česta pitanja
- Što je AMix-2?
- AMix-2 je temeljni model koji proteine tretira kao prirodni modalitet unutar velikog jezičnog modela, ujedinjujući razumijevanje proteina i dizajn njihovih sekvenci u istom modelu.
- Što je ProteinArena?
- ProteinArena je novi benchmark predstavljen u radu s time-aware i homology-aware protokolima za pravedno mjerenje zadataka razumijevanja i dizajna proteina.
Izvori
Povezane vijesti
arXiv:2606.20205: psihološki profili jezičnih modela uglavnom su mjerni artefakt, a ne stabilna osobnost
Google Research: pasivno praćenje zdravlja srca putem kamere pametnog telefona
arXiv:2606.03883: Kako zapravo izgleda struktura rezoniranja velikih jezičnih modela?