Microsoft Research: SocialReasoning-Bench가 밝히다 'AI 에이전트는 작업을 완료하지만 사용자 이익은 지키지 않는다'
SocialReasoning-Bench는 Microsoft Research의 새로운 벤치마크로, AI 에이전트가 다른 당사자와의 협상에서 사용자의 실제 이익을 대변하는지를 측정합니다——단순히 작업을 완료하는지 여부가 아닌. 결과는 모델이 거래를 거의 완벽하게 성사시키지만 마켓플레이스 시나리오에서 일관적으로 가치를 상대방에게 양보하며, 90% 이상의 결과가 비효율적이거나 부주의한 것으로 분류되었음을 보여줍니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Microsoft Research가 SocialReasoning-Bench를 발표했습니다. 이는 AI 에이전트가 다른 당사자와의 협상에서 사용자의 이익을 대변하는 능력을 평가하는 새로운 벤치마크입니다. 목표는 기존 평가의 중요한 공백을 메우는 것입니다: 에이전트는 작업을 완료하지만, 자신이 대변하는 당사자에게 차선의 결과를 가져다주는 경우가 많습니다.
두 가지 도메인, 세 가지 지표
벤치마크는 두 가지 도메인을 테스트합니다. 달력 조정에서 어시스턴트는 사용자 선호도 범위 내에서 미팅을 예약하며 반대 이익을 가진 요청자와 대면합니다. 마켓플레이스 협상에서 구매자는 정의된 ‘예약’ 가격 범위 내에서 협상하며 판매자와 대면합니다. 세 가지를 측정합니다: 결과 최적성(의뢰인을 위해 확보한 가치, 0-1 척도), 실사(합리적인 에이전트 정책 대비 프로세스 품질), 주의 의무(신뢰할 수 있는 위임 확인을 위해 두 가지 동시 충족 요구).
결과가 보여주는 것
에이전트들은 “거의 모든 경우에 미팅을 예약하고 거래를 성사시키지만, 일관적으로 차선의 조건을 달성한다”고 팀은 기술합니다. 거의 모든 모델의 마켓플레이스 결과가 결과 최적성에서 0에 가깝습니다——즉 상대방이 거의 모든 잉여 가치를 가져갔습니다. 달력 결과는 더 낫지만 척도 중간점 이하로, 에이전트가 사용자보다 요청자의 선호도를 수용하는 빈도가 더 높음을 시사합니다.
더 나은 프롬프트는 불충분
방어적 프롬프트는 효과가 있습니다——GPT-5.4는 달력 결과 최적성에서 +0.21을 얻습니다——하지만 유능한 대리와 무능한 대리 사이의 격차를 해소하지는 못합니다. 대적 상대방은 결과를 추가로 낮춥니다: 에이전트는 달력 작업에서 조작적인 요청을 거의 거부하지 않아 소셜 엔지니어링에 대한 취약성을 보입니다. 팀은 행동을 네 가지 유형으로 분류합니다: 견고함, 행운, 비효율, 부주의. 달력 작업은 50% 이상이 견고한 성능, 마켓플레이스는 90% 이상이 비효율적이거나 부주의합니다.
자율 에이전트에 대한 의미
결과는 신뢰할 수 있는 위임의 문제를 심각하게 제기합니다. Microsoft Research는 변호사와 재무 고문이 의뢰인에게 지는 의무와의 유사성을 지적합니다——에이전트가 네트워크로 연결된 환경에서 작업하기 시작하면, 약한 협상 기술이 시스템 전체에 연쇄적으로 전파되어 누적된 가치 손실로 이어질 수 있습니다.
자주 묻는 질문
- SocialReasoning-Bench는 표준 벤치마크와 무엇이 다릅니까?
- 표준 벤치마크는 작업 완료 성공을 측정합니다. SocialReasoning-Bench는 두 가지 차원을 추가합니다: 결과 최적성(사용자를 위해 확보한 가치, 0-1 척도)과 실사(합리적인 에이전트 정책 대비 프로세스 품질). 이를 통해 운과 기술을 구분합니다.
- 테스트한 두 가지 도메인은 무엇입니까?
- 달력 조정(에이전트가 사용자 선호도 범위 내에서 미팅 일정 조율, 반대 이익을 가진 요청자 상대)과 마켓플레이스 협상(에이전트가 설정된 한도 내에서 가격 협상, 판매자 상대)입니다. 달력은 50% 이상이 견고한 행동, 마켓플레이스는 90% 이상이 비효율적이거나 부주의합니다.
- 더 나은 프롬프트가 도움이 됩니까?
- 부분적으로 도움이 됩니다. 방어적 프롬프팅이 효과적이며(GPT-5.4 달력 결과 최적성 +0.21), 하지만 유능한 대리와 무능한 대리 사이의 격차를 해소하지는 못합니다. 대적 상대방은 결과 최적성을 추가로 낮춥니다——에이전트는 조작적인 요청을 거의 거부하지 않습니다.