arXiv:2605.30963: AMix-2, 단백질을 LLM의 자연스러운 모달리티로 도입
AMix-2는 단백질 이해와 시퀀스 설계를 공유 토큰 공간에서 통합하는 단백질-텍스트 기반 모델이다. block-wise 확산 언어 백본을 사용하고 ProteinArena 벤치마크를 도입하며, frontier LLM을 능가하고 특수 목적 단백질 모델과 경쟁한다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
arXiv의 새로운 논문은 단백질을 대규모 언어 모델 내의 자연스러운 모달리티로 도입하는 기반 모델 AMix-2를 소개한다. 작업별로 분리된 모델을 사용하는 대신, AMix-2는 자연어와 단백질 시퀀스를 공유 토큰 공간에 배치한다. 이로써 단백질 이해와 조건부 시퀀스 설계를 생물학적 추론이 가능한 단일 시스템에서 통합한다.
block-wise 확산 백본은 어떻게 작동하나?
이 모델의 기반은 block-wise 확산 언어 모델이다. 이 접근법은 블록 간의 인과적 생성을 양방향 컨텍스트 및 각 블록 내의 반복적 정제와 결합한다. 저자들은 이러한 구조가 엄격한 좌→우 생성보다 단백질의 본질을 더 잘 반영한다고 말한다. 통제된 실험은 확산 접근법이 그 자기회귀 버전을 전반적으로 능가함을 보였다.
ProteinArena란 무엇인가?
연구팀은 포괄적인 평가 프레임워크 ProteinArena를 도입했다. 여기에는 다양한 이해 및 설계 작업에 걸친 time-aware 및 homology-aware 프로토콜이 포함되며, 고전적 생물정보학 도구, 특수 목적 단백질 모델, 언어 모델과의 비교가 이뤄진다. 목표는 실제 일반화 능력을 보다 공정하고 현실적으로 측정하는 것이다.
얼마나 우수한가?
결과에 따르면 AMix-2는 frontier LLM을 능가하며, 작업별 특수 목적 단백질 모델과 견줄 만한 성능을 보인다. 이 논문은 30페이지, 그림 4개, 표 12개로 구성되었으며, 2026년 5월 29일에 제출되었다. 그 뒤에는 Keyue Qiu가 이끄는 대규모 연구진이 있다.
자주 묻는 질문
- AMix-2란 무엇인가요?
- AMix-2는 단백질을 대규모 언어 모델 내의 자연스러운 모달리티로 취급하는 기반 모델로, 단백질 이해와 그 시퀀스 설계를 하나의 모델에서 통합합니다.
- ProteinArena란 무엇인가요?
- ProteinArena는 단백질 이해 및 설계 작업을 공정하게 측정하기 위한 time-aware 및 homology-aware 프로토콜을 갖춘, 이 논문에서 소개된 새로운 벤치마크입니다.