🟢 🤖 模型 发布于: · 1 分钟阅读 ·

Allen Institute:DiScoFormer——单个Transformer跨分布同步估计密度与得分函数

编辑插图:DiScoFormer——单个Transformer跨越不同分布同步估计密度与得分,无文字无人脸

DiScoFormer是Allen Institute for AI(AI2)的Transformer模型,在单次前向传播中同时估计密度函数(分布密度)和得分函数——此前需要两个独立模型。它将KDE推广至高维空间,无需重新训练即可适应新分布。

🤖

本文由人工智能基于一手来源生成。

Allen Institute for AI(AI2)于2026年6月29日发布DiScoFormer研究——这是一个Transformer模型,在单次传播中将密度估计与分布梯度估计整合,无需独立模型。

一个模型取代两个

此前方法需要独立模型:一个用于密度函数(分布密度——平滑版直方图,显示数据聚集位置),另一个用于得分函数(密度对数的梯度,指向高概率区域方向)。AI2研究人员的DiScoFormer将两种计算整合在共享主干的单个Transformer模型中,配备两个输出头——密度和得分均在单次前向传播中完成估计。

为什么经典KDE无法扩展到高维空间?

KDE(核密度估计)是一种从邻近数据点估计密度的经典统计方法,但其精度随维度增加而急剧下降。DiScoFormer在高斯混合模型上训练,利用数学上一致的密度与得分函数对克服这一问题:在100维空间中,得分误差降低6.5倍,密度误差降低37倍(相比精心调优的KDE)。

DiScoFormer无需重新训练即可泛化

密度与得分函数之间的数学关联充当一致性约束——DiScoFormer无需重新训练即可适应分布外数据。与神经得分匹配方法(需为每个新分布单独训练)不同,Allen Institute的模型可即时适应未见分布。该研究属于基础性质,与生成模型和概率机器学习相关,以arXiv论文(2511.05924)形式发布。

常见问题

为什么在单次前向传播中同时估计密度与得分如此重要?
以往方法需要独立模型:KDE用于密度(在高维空间中精度迅速下降),神经得分匹配需要对每个新分布重新训练。DiScoFormer利用密度与得分函数的数学关联,在单次传播中解决这两项限制——无需额外计算开销。
DiScoFormer如何实现对未见分布的泛化?
该架构共享Transformer主干,配备两个输出头——一个用于密度,另一个用于得分。两个输出之间的数学一致性作为约束条件,使模型无需重新训练即可泛化到分布外数据。