AMix-2：将蛋白质作为原生模态统一引入大型语言模型LLM

AMix-2是一个蛋白质-文本基础模型，将蛋白质理解和序列设计统一到共享的token空间中。它采用block-wise扩散语言骨干，引入ProteinArena基准，超越frontier LLM并可与专门的蛋白质模型相竞争。

arXiv上的一篇新论文提出了AMix-2，一个将蛋白质作为原生模态引入大型语言模型的基础模型。AMix-2不使用独立的、任务专用的模型，而是将自然语言和蛋白质序列放入共享的token空间。由此，它将蛋白质理解和条件序列设计统一在一个能够进行生物推理的系统中。

block-wise扩散骨干如何工作？

模型的基础是block-wise扩散语言模型。该方法将块间的因果生成与块内的双向上下文和迭代精化相结合。作者指出，这种结构比严格从左到右的生成更能反映蛋白质的本质。受控实验表明，扩散方法总体上优于其自回归对应方法。

团队引入了ProteinArena，一个全面的评估框架。它包含跨多种理解和设计任务的time-aware和homology-aware协议，并与经典生物信息学工具、专门的蛋白质模型和语言模型进行比较。目标是更公平、更真实地衡量实际的泛化能力。

根据结果，AMix-2超越了frontier LLM，并在与任务专用蛋白质模型的对比中展现出有竞争力的表现。该论文共30页，含4幅插图和12个表格，于2026年5月29日提交。论文背后是一支由Keyue Qiu领衔的庞大研究团队。

常见问题

什么是AMix-2？

AMix-2是一个将蛋白质视为大型语言模型内原生模态的基础模型，将蛋白质理解和其序列设计统一在同一个模型中。

什么是ProteinArena？

ProteinArena是论文中提出的新基准，采用time-aware和homology-aware协议，用于公平衡量蛋白质理解和设计任务。