「消费端执行」是什么意思？

大语言模型 (LLM) 不直接执行操作，而是生成类型化动作请求，消费者应用程序在执行前根据静态类型契约进行验证。如果请求未通过类型检查，操作就不会发生。

为什么不直接训练模型不犯错？

因为大语言模型 (LLM) 是概率性的——永远无法保证 100% 准确。类型系统是确定性的——如果定义正确，可以 100% 阻止某类错误。作者认为，真实的企业安全需求不能仅依赖模型。

在企业软件中——CRM、ERP、内部工具、客服平台——AI 智能体越来越多地执行有后果的操作：更新记录、发送邮件、触发工作流、访问不同客户的工作区。当大语言模型 (LLM) 以突破安全边界的方式出错时，问题就出现了：

经典解决方案是”更好地训练模型”或”在提示词中添加护栏”。两者都是概率性的——模型仍然可能出错，只是频率较低。在企业环境中，一个错误可能意味着 GDPR 违规或客户信任损失，这是不够的。

2026 年 4 月 17 日在 arXiv 上发表的论文提出了一个模型外的确定性层：

从架构上说，这将安全负担从概率性模型转移到确定性类型系统——静态检查而非运行时祈祷。

作者提供了企业环境中的具体示例：

示例 1 — 工作区隔离：

UpdateCustomerRecord(customerId: CustomerId, fields: CustomerFields)
  requires: caller.workspace == customer.workspace

如果大语言模型 (LLM) 尝试更新另一个工作区的客户，类型系统在执行前拒绝。

示例 2 — 权限：

SendExternalEmail(to: EmailAddress, body: String)
  requires: caller.permissions.includes(SEND_EXTERNAL)

模型可以起草完美的邮件——如果用户没有 SEND_EXTERNAL 权限，操作静态失败。

示例 3 — 语义约束：

DeleteRecord(id: RecordId)
  requires: record.createdBy == caller || caller.isAdmin

即使模型认为合理，也无法删除他人的记录。

权衡是实现的复杂性。类型系统必须经过精心设计，覆盖真实场景而不过于僵化。论文包含来自多个企业领域（销售、支持、人力资源）的示例，表明这在实践中是可行的。

对于构建企业 AI 集成的开发者，论文提供了具体的设计模式：

该方法与 MCP（模型上下文协议）的趋势一致，MCP 同样提倡结构化工具调用而非自由执行。与 MCP 结合时，结果是分层防御，MCP 和类型契约各自阻止不同类别的错误。

本文是预印本，但想法足够具体，现在构建企业 AI 的团队可以立即应用这些原则——甚至不必等待正式的同行评审发表。