ArXiv: 인간-AI 집합체에서 완전한 책임의 수학적 불가능성 증명

규제 당국을 위한 이론적 프레임워크

AI 책임에 대한 논쟁이 공공에서 주로 직관 수준(“누군가가 책임져야 한다”)에서 진행되는 동안, 저자 Tibebu는 형식적인 측면에서 문제에 접근합니다. 4월 10일 ArXiv에 발표된 논문 The Accountability Horizon은 인간과 AI 에이전트를 결합하는 시스템에 대한 불가능성 정리를 증명합니다.

책임의 네 가지 속성

Tibebu는 “책임감 있는” 사회 기술 시스템에서 기대하는 네 가지 속성을 정의합니다:

귀속 — 각 행동에 대해 식별 가능한 행위자가 존재해야 합니다
이해 가능성 — 결정의 이유는 감독 기관에 이해 가능해야 합니다
제재 가능성 — 잘못된 결정을 처벌하는 메커니즘이 존재해야 합니다
시정 가능성 — 시스템은 실수로부터 배우고 그것을 반복하지 않을 수 있어야 합니다

주요 정리

AI 에이전트 자율성의 특정 임계값(저자는 이를 “책임 지평”이라고 부름)을 넘으면 네 가지 속성이 모두 동시에 성립할 수 없습니다. 즉, AI 시스템에 더 많은 자율성을 부여할수록 책임에 대해 의미 있는 말을 하기가 어려워집니다.

긴장의 구체적인 예:

여러 에이전트가 조정할 때 귀속이 약해집니다 (같은 날의 ACIArena 논문 참조)
에이전트가 인간 개념에 해당하지 않는 잠재 표현을 사용할 때 이해 가능성이 약해집니다
결정이 분산 계산을 포함할 때 제재 가능성이 약해집니다
RLHF 업데이트가 예측 불가능한 부작용을 가질 때 시정 가능성이 약해집니다

EU AI 법 및 기타 규정에 대한 시사점

이 논문은 개발자, 배포자, AI 시스템 사용자 간에 책임을 “분할”하려는 규정에 실제적인 결과를 가져옵니다. Tibebu는 자율성이 특정 임계값을 넘으면 이러한 시도가 성공할 수 없다고 제안하며, 규제 당국은 책임을 사후적으로 분배하려는 시도 대신 자율성 수준에 강한 상한선을 설정해야 한다고 합니다.

ArXiv: 인간-AI 집합체에서 완전한 책임의 수학적 불가능성 증명

규제 당국을 위한 이론적 프레임워크

책임의 네 가지 속성

주요 정리

EU AI 법 및 기타 규정에 대한 시사점

출처

관련 뉴스