ArXiv HiL-Bench: 어떤 프론티어 모델도 언제 도움을 요청해야 하는지 모른다

보편적인 판단력 문제

연구팀(Elfeki, Trinh, Luu 외)이 HiL-Bench(Human-in-the-Loop Benchmark)를 발표했다 — AI 에이전트가 추측하는 대신 인간에게 도움을 요청해야 할 때를 인식하는지를 구체적으로 측정하는 최초의 벤치마크이다.

기존 벤치마크는 에이전트에게 완전하고 명확한 지시를 제공하며 실행 정확도만 측정한다. HiL-Bench는 그 반대를 수행한다: 각 과제에는 검증된 차단 요소 — 누락된 정보, 모호한 요구사항 또는 모순된 사양 — 가 포함되어 있으며, 이는 사전에가 아니라 점진적 탐구를 통해서만 발견된다.

어떤 프론티어 모델도 통과하지 못한다

SWE 및 text-to-SQL 도메인에 걸친 평가에서 크고 보편적인 판단력 격차가 드러났다: 명확화를 요청해야 하는지 스스로 결정해야 할 때, 어떤 프론티어 모델도 성능의 극히 일부 이상을 달성하지 못한다.

새로운 지표 Ask-F1(질문 정밀도와 차단 요소 재현율의 조화 평균)은 질문 스팸을 통한 게이밍을 아키텍처적으로 방지한다.

세 가지 실패 패턴

분석에서 세 가지 체계적 패턴이 확인되었다:

과신에 의한 잘못된 확신 — 에이전트가 정보 공백을 감지하지 못함
높은 불확실성 감지에도 지속적인 오류 — 에이전트가 문제를 인식하지만 에스컬레이션하지 않음
광범위하고 부정확한 에스컬레이션 — 에이전트가 지나치게 일반적인 질문을 하며 자기 교정이 없음

판단력은 훈련 가능하다

핵심 발견: Ask-F1 보상 신호에 기반한 RL 훈련이 판단력을 향상시킨다. 32B 모델은 훈련 후 질문 품질과 과제 통과율이 모두 향상되었으며 — 도메인 간 전이도 나타났다. 모델은 도메인 특화 휴리스틱을 학습하는 것이 아니라, 해결 불가능한 불확실성을 감지하고 그에 따라 행동하는 것을 학습한다.

프로덕션 환경에서 AI 에이전트를 사용하는 모든 이에게 경고이다: 완전한 사양에서 유능해 보이는 에이전트가 정보가 누락될 때 치명적으로 실패할 수 있다 — 그리고 그것이 현실 세계의 일반적 상황이다.

ArXiv HiL-Bench: 어떤 프론티어 모델도 언제 도움을 요청해야 하는지 모른다

보편적인 판단력 문제

어떤 프론티어 모델도 통과하지 못한다

세 가지 실패 패턴

판단력은 훈련 가능하다

출처

관련 뉴스