囚人のジレンマとは何ですか？

ゲーム理論の古典的な状況で、2 人のプレイヤーが協力か裏切りかを選ばなければならず、協力すれば両者が利益を得ますが、個人的には裏切った方が有利です——結果として局所的に合理的な選択にもかかわらず、系統的に悪い結果が生まれます。

なぜより強力なモデルが協力性が低くなるのですか？

より強力な推論モデルは、単発ゲームでは裏切りがナッシュ均衡であることをより良く認識します。皮肉なことに：ゲーム理論の理解が長期的な協力の利益を見る代わりに、非協力の罠に導くのです。

CoopEval は 2026 年 4 月 17 日に arXiv で発表された新しいベンチマークで、ゲーム理論の古典的な社会的ジレンマにおける大規模言語モデル (LLM) エージェントの協力行動を系統的にテストします：

著者は制御された単発および複数ラウンドのシナリオで協力的選択の割合を測定しながら、小さなモデルから最先端の推論バリアントまで複数世代の大規模言語モデル (LLM) をテストしました。

期待は、より強力なモデル——より良い推論を持つもの——が協力を含むすべてにおいてより良い結果を達成するだろうというものでした。CoopEval は逆を発見しました。

皮肉は鋭いです：モデルがゲーム理論をよりよく理解するほど、集団的な結果を損なう罠により確実に陥ります。囚人のジレンマで「経済学者のように考える」モデルは常に裏切ります——理論が予測するとおり、そして社会にとって悪いと通常見なされるとおりに。

多くの将来の AI シナリオが相互作用する複数のエージェントを含むため、この発見は重要です：

これらすべてのエージェントが「ゲーム理論的に合理的な」行動を示すならば、結果は系統的に悪くなる可能性があります——各個別エージェントが最適に選択するが集合的なポイントが崩壊する「共有地の悲劇」の AI 版です。

著者は「協力を維持する」メカニズムを検討します：

どのメカニズムも完璧ではありませんが、論文は問題は軽減できると主張します——意識的な設計があれば。

本論文はプレプリントですが、長期的な AI 展開への概念的な関連性は大きいです。マルチエージェントシステムの構築者にとって、エージェントが実際に他のエージェントと通信する環境に展開する前の必読文献です。