SWE-chat与现有基准测试有何不同？

大多数现有编程智能体基准测试（如SWE-bench）使用合成或存档的GitHub Issue。SWE-chat是开发者与生产环境中智能体进行的真实对话数据集，反映了真实的查询、纠错和反馈。

这个数据集具体用途是什么？

对于研究人员和编程智能体开发团队，该数据集有助于理解用户期望、识别对话中的典型中断点，并通过真实场景而非合成测试对改进进行有针对性的评估。

这对AI编程工具的开发意味着什么？

关于生产环境中用户和智能体行为的真实数据，使得有针对性地改进薄弱环节成为可能——例如纠错、寻求额外上下文或决定何时放弃——这在仅使用合成基准时更难实现。

ArXiv SWE-chat：与编程智能体真实交互的数据集

合成基准测试的问题

过去两年AI编程智能体的开发，主要依赖于SWE-bench、HumanEval及其变体等合成基准测试。这些基准通常采用历史GitHub Issue或精心准备的编程任务，衡量智能体是否能够生成通过测试的解决方案。问题在于，此类测试无法反映开发者实际与智能体协作的方式——它们不记录模糊指令、不完整的上下文、对话中间步骤，也不记录用户在任务中途改变主意的情况。

最近发布在ArXiv上的SWE-chat数据集，正是试图填补这一空白。作者将该数据集描述为用户与生产环境中AI编程智能体进行真实野外交互的集合。数据集包含开发者使用自主系统处理日常任务的自然对话——修复bug、重构模块、编写测试或寻求配置帮助——而非精心挑选的示例。

数据集记录了什么

根据ArXiv上的发布，SWE-chat提供了关于开发者在实践中如何真正使用自主系统的洞察。这包括典型的查询表述方式、用户对智能体建议的回应方式、对错误或部分正确答案的反应，以及对话演变为多步骤迭代的时刻。此类数据在实验室条件下难以重现，因为它需要真实的生产环境使用和愿意允许对话被记录用于研究目的的合作用户。

这样的数据集为以前超出学术界能力范围的分析打开了大门。研究人员可以观察对话质量随时间的变化、用户随经验积累形成的策略、何时放弃智能体转向手动操作，以及智能体可靠解决哪些类型的任务而在哪些方面经常失败。对于开发自有智能体的团队，SWE-chat成为新版本回归评估的现实测试平台。

对智能体开发和评估的影响

SWE-chat数据集最重要的意义在于评估从合成有效性向生态有效性的转变。合成基准衡量智能体技术上是否能解决问题，而SWE-chat衡量它是否能在系统实际使用的条件下解决问题——信息不完整、指令多变、需要人工反馈。这比任何以前的基准都更接近实用性的真实度量。

对于AI编程工具开发者社区，该数据集非常宝贵，因为它能够有针对性地改进薄弱点。如果SWE-chat分析显示智能体经常在向用户寻求额外上下文方面失败，这就成为一个明确的开发优先级。如果发现用户最常在智能体误解任务意图时放弃，团队可以投资于更好的指令理解能力。开发不再需要追随不反映现实的合成测试数字，而是可以根据生产环境中用户和智能体行为的真实数据来引导。

ArXiv SWE-chat——开发者与生产环境AI编程智能体真实交互数据集

合成基准测试的问题

数据集记录了什么

对智能体开发和评估的影响

来源

相关新闻