基础
幻觉(Hallucination)
语言模型生成听起来流畅且语气自信、但实际上在事实上存在错误、内容虚构或缺乏可靠来源支撑的输出;是当前大型语言模型(LLM)部署中最核心的质量风险之一。
**幻觉(Hallucination)**是指 AI 模型——通常是大型语言模型——产生的输出流畅自信却在事实上错误。常见形式包括:引用不存在的论文、捏造名人言论、虚构司法判例、错误的 API 签名,或听起来真实但实为虚构的人物传记细节。模型并非在「撒谎」,而是生成了统计上合理的续文,只是恰好与事实不符。
产生幻觉的原因包括:训练数据中的空白、训练数据中的矛盾信息、引发捏造的歧义提示,以及下一词元预测的根本性质(优化的是合理性,而非真实性)。
减轻幻觉的策略:
- **检索增强生成(RAG):**将回答建立在经验证的知识库之上
- **来源引用:**要求模型引用提示中的原始来源
- **推理模型:**更长的思维链可减少某些类别的错误
- **验证模型:**用第二个模型检验第一个模型的主张
- **降低温度:**减少创造性采样,代价是输出多样性下降
- **系统提示:**明确要求「不确定时请说’我不知道’」
从 GPT-3.5 时代到当前前沿模型,幻觉率已大幅下降,但问题尚未根本解决。生产级 AI 系统需要严格的评估机制,并需教育用户:未经核实的 LLM 输出不可作为权威信息来源。