죄수의 딜레마란 무엇입니까?

두 플레이어가 협력 또는 배신을 선택해야 하는 게임 이론의 고전적 상황으로, 협력하면 모두 이익을 얻지만 개인적으로는 배신하는 것이 더 유리합니다——결과적으로 국소적으로 합리적인 선택에도 불구하고 체계적으로 나쁜 결과가 발생합니다.

왜 더 강력한 모델이 덜 협력적입니까?

더 강력한 추론 모델은 단발 게임에서 배신이 내시 균형임을 더 잘 인식합니다. 역설적으로: 게임 이론에 대한 이해가 협력의 장기적 이점을 보는 대신 비협력적 함정으로 이끕니다.

CoopEval은 2026년 4월 17일 arXiv에서 발표된 새로운 벤치마크로, 게임 이론의 고전적 사회적 딜레마에서 대규모 언어 모델 (LLM) 에이전트의 협력 행동을 체계적으로 테스트합니다:

저자들은 통제된 단발 및 다회전 시나리오에서 협력적 선택의 비율을 측정하면서, 소형 모델부터 최첨단 추론 변형까지 여러 세대의 대규모 언어 모델 (LLM)을 테스트했습니다.

기대는 더 강력한 모델——더 나은 추론을 가진 모델——이 협력을 포함한 모든 것에서 더 나은 결과를 달성할 것이라는 것이었습니다. CoopEval은 반대를 발견했습니다.

역설은 날카롭습니다: 모델이 게임 이론을 더 잘 이해할수록, 집단적 결과를 손상시키는 함정에 더 확실히 빠집니다. 죄수의 딜레마에서 「경제학자처럼 생각하는」 모델은 항상 배신합니다——이론이 예측하는 대로, 그리고 사회에 나쁘다고 보통 여겨지는 대로.

많은 미래 AI 시나리오가 서로 상호작용하는 여러 에이전트를 포함하기 때문에 이 발견은 중요합니다:

이 모든 에이전트가 「게임 이론적으로 합리적인」 행동을 보인다면, 결과는 체계적으로 나쁠 수 있습니다——각 개별 에이전트가 최적으로 선택하지만 집단적 결과가 무너지는 「공유지의 비극」의 AI 버전입니다.

저자들은 「협력을 유지하는」 메커니즘을 검토합니다:

어떤 메커니즘도 완벽하지 않지만, 논문은 문제는 완화할 수 있다고 주장합니다——의식적인 설계가 있다면.

이 논문은 프리프린트이지만, 장기 AI 배포에 대한 개념적 관련성은 큽니다. 멀티 에이전트 시스템 구축자들에게는 에이전트가 실제로 다른 에이전트와 통신하는 환경에 배포하기 전에 필수 읽기입니다.