arXiv:2606.20205:语言模型的心理特征画像主要是测量偏差,而非稳定人格
arXiv:2606.20205研究对56个指令微调语言模型进行了标准化心理与偏好测量。通过方差分解,作者发现定向反应偏差可解释模型间81%至90%的差异,而人类中这一比例仅为9%至16%,由此得出结论:语言模型的心理特征画像主要是测量偏差,而非稳定人格。
🤖
本文由人工智能基于一手来源生成。
论文 arXiv:2606.20205 重新审视了日益流行的语言模型心理特征画像实践——将最初为人类设计的人格与偏好测试应用于大型语言模型。研究人员使用标准化心理与偏好测量工具对 56个指令微调模型进行了测试。
发现了什么
通过方差分解——一种区分变异来源的统计方法——作者确定,定向反应偏差(模型无论内容如何都倾向于选择特定答案的倾向)可解释模型间81%至90%的差异。人类中这一比例仅为 9%至16%。这一差距意味着,看似模型「人格」的东西,大部分来源于测量偏差,而非稳定的特质。
为何重要
根据该研究,特征画像会随所用问题的不同而改变,因此同一测试的结果既不可靠也不可比较。作者呼吁开发专门针对模型评估的工具,而非直接采用人类心理量表。这一发现对那些越来越常见的、声称某个模型具有特定「性格」的标题是一个警示——此类说法往往建立在测量偏差之上。
常见问题
- 测试了多少个模型?
- 使用标准化心理与偏好测量工具对56个指令微调语言模型进行了测试。
- 反应偏差的比例有多大?
- 定向反应偏差解释了模型间81%至90%的方差,而人类中这一比例仅为9%至16%。
- 作者有何建议?
- 作者建议开发专门针对模型评估的工具,因为特征画像会随所用问题的不同而改变。