인프라가 결과에 미치는 구체적인 영향은 얼마나 됩니까?

Terminal-Bench 2.0에서 최상 및 최악의 리소스 설정 간 차이는 6퍼센트 포인트(p<0.01)입니다. SWE-bench에서는 효과가 더 작습니다——5배 RAM 변동 시 1.54퍼센트 포인트입니다.

최적 리소스 수준은 무엇입니까?

3배 리소스 헤드룸이 '스위트 스팟'입니다——인프라 오류율을 5.8%에서 2.1%로 줄이고(p<0.001) 결과 안정성을 유지합니다. 정확히 하나의 값으로 엄격하게 제한하면 노이즈가 너무 많이 발생합니다.

저자들이 AI 커뮤니티에 내린 결론은 무엇입니까?

eval 설정이 문서화되고 일치될 때까지 리더보드의 3퍼센트 포인트 미만 차이는 통계적으로 유의미하지 않습니다. eval 설정은 1급 실험 변수가 되어야 합니다.

Anthropic：인프라 노이즈가 에이전트 벤치마크 결과를 최대 6퍼센트 포인트 변동시킴

Q: 최적 리소스 수준은 무엇입니까?

3배 리소스 헤드룸이 '스위트 스팟'입니다——인프라 오류율을 5.8%에서 2.1%로 줄이고(p<0.001) 결과 안정성을 유지합니다. 정확히 하나의 값으로 엄격하게 제한하면 노이즈가 너무 많이 발생합니다.

Q: 저자들이 AI 커뮤니티에 내린 결론은 무엇입니까?

eval 설정이 문서화되고 일치될 때까지 리더보드의 3퍼센트 포인트 미만 차이는 통계적으로 유의미하지 않습니다. eval 설정은 1급 실험 변수가 되어야 합니다.

Gian Segato가 이끌고 Nicholas Carlini, Jeremy Hadfield, Mike Merrill, Alex Shaw가 기여한 Anthropic 연구팀은 2026년 4월 17일 상세한 연구 **“에이전트 코딩 평가에서 인프라 노이즈 정량화”**를 발표했습니다. 결과는 거의 모든 AI 벤치마크 해석에 영향을 미치는 심각한 방법론적 문제를 드러냅니다.

주요 발견

인프라 설정——구체적으로 할당된 RAM의 양과 CPU 헤드룸——이 에이전트 코딩 벤치마크 결과를 6퍼센트 포인트만큼 변동시킬 수 있습니다. 이는 현재 주요 리더보드의 최상위 모델들 간의 차이보다 큽니다.

연구자들은 직접적인 주장을 제시합니다: “Terminal-Bench 2.0에서 가장 리소스가 많은 설정과 가장 적은 설정 간의 격차는 6퍼센트 포인트였습니다(p<0.01).”

테스트된 벤치마크

연구에서는 두 가지 표준 테스트를 사용했습니다:

Terminal-Bench 2.0 — 주요 초점, 터미널 환경에서 에이전트 코딩 능력 측정
SWE-bench — 227개 작업의 교차 검증

결과는 비대칭입니다: Terminal-Bench 2.0은 강한 효과(6pp)를 보이는 반면 SWE-bench는 덜 민감합니다(5배 RAM 변동 시 1.54pp). 이는 작업 및 도구의 특정 구조가 벤치마크가 얼마나 “노이지”한지에 영향을 미친다는 것을 시사합니다.

엄격한 제한이 문제를 악화시킨다

직관적으로는 “모두에게 동일한 리소스를 주면 문제가 해결된다”고 생각할 수 있습니다. 하지만 데이터는 정반대를 보여줍니다:

엄격한 제한 (모두에게 정확한 고정값): 인프라 오류율 5.8%
무제한 리소스 (제한 없음): 인프라 오류율 0.5%

즉, 엄격한 균일성은 실제로 노이즈를 증가시키며, 제한을 초과하는 엣지 케이스 작업이 실패하기 때문입니다.

스위트 스팟: 3배 리소스 헤드룸. 이 설계는 인프라 오류를 **2.1%**로 줄이고(p<0.001) 동시에 결과 일관성을 유지합니다. 아이디어는 각 작업에 단일 고정 숫자 대신 “플로어”(보장)와 “실링”(종료 임계값)을 갖게 하는 것입니다.

노이즈 플로어 및 리더보드 해석

저자들이 모델 간의 작은 차이를 논평하는 AI 커뮤니티에 전달하는 가장 날카로운 메시지는:

“eval 설정이 문서화되고 일치될 때까지 리더보드 차이 3퍼센트 포인트 미만은 의심해야 합니다.”

이유는 통계적입니다: 이항 신뢰 구간은 이미 인프라 효과와 무관하게 1-2퍼센트 포인트를 커버합니다. 여기에 6pp의 인프라 교란 요인을 추가하면 최악의 경우 측정의 자연적 불확실성은 약 8pp가 됩니다.

5가지 구체적인 권장 사항

연구자들은 평가자를 위한 구체적인 목록으로 마무리합니다:

작업별로 보장된 할당과 하드 종료 임계값을 지정합니다 (단일 고정값이 아닌)
플로어와 실링 점수가 통계적 노이즈 내에 떨어지도록 격차를 보정합니다
집행 방법론을 명시적으로 보고합니다
리소스 사양을 1급 실험 변수로 문서화합니다
시간적 노이즈 평균화를 위해 여러 날에 걸쳐 평가를 실행합니다 (API 레이턴시, 클러스터 상태 변화)

왜 이것이 업계에 중요한가

저자들의 핵심 결론: “리더보드에서 2포인트 우위는 진정한 능력 차이를 반영할 수도 있고, 한 eval이 더 강력한 하드웨어에서 실행되었거나 심지어 하루 중 운이 더 좋은 시간대에 실행되었음을 반영할 수도 있습니다.”

AI 커뮤니티에게 이는 결과를 발표할 때 더 체계적인 인프라 문서화의 필요성을 의미합니다. 정확한 RAM, CPU, API 헤더 및 시간 창 구성 없이 발표되는 벤치마크——대부분이 그렇습니다——는 모델 품질의 명목상 차이를 완전히 묻어버릴 수 있는 노이즈를 갖고 있습니다.

Anthropic의 연구는 모델 간 차이가 단일 퍼센트 포인트로 측정되고 마케팅이 그 차이를 혁명적으로 제시하는 시점에 등장했습니다. 연구는 여기서 훨씬 더 큰 주의가 필요함을 보여줍니다.