arXiv:2605.30963:AMix-2がタンパク質をネイティブなモダリティとしてLLMに導入
AMix-2はタンパク質-テキストの基盤モデルで、タンパク質の理解とシーケンス設計を共有トークン空間に統合します。block-wise拡散言語バックボーンを用い、ベンチマークProteinArenaを導入し、フロンティアLLMを上回り、専門のタンパク質モデルと競合します。
この記事はAIにより一次情報源から生成されました。
arXivの新しい論文は、タンパク質をネイティブなモダリティとして大規模言語モデルに導入する基盤モデルAMix-2を提示します。AMix-2は別々のタスク固有のモデルを使う代わりに、自然言語とタンパク質シーケンスを共有トークン空間に配置します。これにより、タンパク質の理解と条件付きシーケンス設計を、生物学的推論が可能な単一のシステムに統合します。
block-wise拡散バックボーンはどのように動作しますか?
モデルの基盤はblock-wise拡散言語モデルです。このアプローチは、ブロック間の因果的生成と、各ブロック内の双方向コンテキストおよび反復的な精緻化を組み合わせます。著者らは、こうした構造が厳密な左から右への生成よりもタンパク質の性質をよりよく反映すると述べています。制御された実験では、拡散アプローチが全般的にその自己回帰版を上回ることが示されました。
ProteinArenaとは何ですか?
チームは包括的な評価フレームワークProteinArenaを導入しました。これは多様な理解・設計タスクにわたるtime-awareおよびhomology-awareプロトコルを含み、古典的なバイオインフォマティクスツール、専門のタンパク質モデル、言語モデルとの比較を行います。目的は、実際の汎化をより公平かつ現実的に測定することです。
どの程度優れていますか?
結果によれば、AMix-2はフロンティアLLMを上回り、タスク固有のタンパク質モデルと比べても競争力のある性能を示します。論文は30ページ、4枚の図、12の表で構成され、2026年5月29日に提出されました。その背後には、Keyue Qiuが率いる大規模な研究チームがいます。
よくある質問
- AMix-2とは何ですか?
- AMix-2は、タンパク質を大規模言語モデル内のネイティブなモダリティとして扱う基盤モデルで、タンパク質の理解とそのシーケンス設計を同一のモデルに統合します。
- ProteinArenaとは何ですか?
- ProteinArenaは論文で提示された新しいベンチマークで、タンパク質の理解と設計のタスクを公平に測定するためのtime-awareおよびhomology-awareプロトコルを備えます。