테스트 타임 컴퓨트란 무엇이며 평가에서 왜 중요한가?

테스트 타임 컴퓨트는 AI 에이전트가 태스크를 수행할 때 사용하는 토큰 단위의 연산 자원이다. AISI는 예산이 클수록 성능이 직접적으로 향상된다는 사실을 증명했으며, 따라서 능력은 단일 벤치마크 점수가 아닌 곡선으로 측정해야 한다고 주장한다.

토큰 예산을 10배 늘리면 성능이 얼마나 향상되는가?

AISI 측정에 따르면 예산을 100만에서 1000만 토큰으로 늘리면 소프트웨어 엔지니어링 태스크에서 약 25%, 수학 및 학문적 태스크에서 약 22%의 성능 향상이 나타난다.

이것이 규제 기관에 왜 중요한가?

고정 예산 기반의 위험 평가는 모델의 실제 능력을 구조적으로 과소평가한다. 최신 모델은 추가 컴퓨팅에서 불균형적으로 더 많은 이익을 얻으며, 이는 표준화된 테스트가 거짓 안전감을 줄 수 있음을 의미한다.

AISI: AI 에이전트는 예산 기준으로 평가해야 한다

영국 AI 안전 연구소(AISI)는 고정 토큰 예산으로 AI 에이전트를 평가하면 프런티어 모델의 실제 능력을 체계적으로 과소평가한다는 연구 결과를 발표했다. 예산을 100만 토큰에서 1000만 토큰으로 늘리면 소프트웨어 엔지니어링 태스크에서 최대 25%, 수학 테스트에서 22%의 성능 향상이 나타났다. AISI는 규제 기관이 벤치마크 점수 대신 컴퓨팅 예산에 따른 능력 곡선을 채택할 것을 촉구한다.

영국 AI 안전 연구소(AISI)가 규제 기관과 보안 커뮤니티에 광범위한 시사점을 주는 연구를 발표했다. 표준 AI 에이전트 평가는 고정 토큰 예산 기준으로 성능을 측정하는데, 이 방식은 프런티어 모델의 실제 능력을 체계적으로 과소평가한다는 것이다. 단일 벤치마크 점수 대신, 에이전트의 능력은 이용 가능한 컴퓨팅 예산에 따라 성능이 어떻게 변화하는지를 추적하는 곡선 함수로 이해해야 한다.

에이전트 능력은 토큰 예산에 따라 달라진다

연구 결과는 주어진 토큰 예산에서 에이전트가 얼마나 달성하는지를 아는 것만으로는 충분하지 않다는 점을 명확히 보여준다. 핵심은 더 많은 자원이 주어졌을 때 성능이 어떻게 변화하는지를 이해하는 것이다. 소프트웨어 엔지니어링 태스크에서 예산을 100만 토큰에서 1000만 토큰으로 늘렸을 때 약 25% 의 성능 향상이 나타났다. 수학 및 학문적 태스크에서는 약 22% 가 향상되었다. 이 차이는 무시할 수 없는 수준이다 — 태스크를 완료하지 못하는 모델과 안정적이고 일관되게 해결하는 모델의 차이를 만들어낸다.

특히 시사하는 바가 큰 발견은 사이버 보안 영역에서 나왔다. 테스트된 사이버 태스크의 약 8% 는 1000만 토큰 이상의 예산에서만 풀 수 있었다. 더 낮은 예산을 사용하는 표준 평가 프레임워크 내에서 이 태스크들은 불가능해 보인다 — 이로 인해 규제 기관과 보안 연구자들은 프런티어 모델이 실제로 제기하는 위험에 대해 왜곡된 그림을 갖게 된다.

기존 평가는 실제로 무엇을 측정하는가?

표준 벤치마크 테스트는 고정 토큰 예산을 선택하고 에이전트가 태스크 세트를 얼마나 성공적으로 해결하는지 측정한다. 이 접근 방식은 근본적인 방법론적 문제를 안고 있다. 모델 간 비교가 불가능하며 실제 능력 한계를 신뢰성 있게 보여주지 못한다.

AISI는 프런티어 모델 하나의 능력 지평선 — 모델이 안정적으로 해결할 수 있는 가장 긴 태스크로 정의 — 이 예산을 250만 토큰에서 5000만 토큰으로 늘렸을 때 40분에서 4시간으로 확장되었음을 측정했다. 동일한 차이는 발전 속도 추정에도 영향을 미친다. 프런티어 사이버 능력은 250만 토큰 예산에서 4.7개월마다 두 배로 증가한다. 5000만 토큰 예산에서는 이 두 배 속도가 무려 60% 더 빨라진다 — 즉 평가 기준점을 어디에 설정하느냐에 따라 완전히 다른 발전 궤적을 측정하는 셈이다.

컴퓨팅 수요는 숙련된 사람이 동일한 태스크에 소요하는 시간에 따라 지수 0.7에서 1.0 사이의 거듭제곱 법칙 관계로 확장된다. 전문가가 한 시간 걸리는 태스크는 수백만 토큰이 필요하고, 일주일짜리 프로젝트는 수십억 토큰이 필요하다.

고정 예산의 규제적 함의

AISI는 직접적인 정책 함의를 가진 구조적 문제를 명시적으로 경고한다. 고정 예산 기반의 위험 평가는 측정한다고 주장하는 것을 측정하지 못한다 — 더 높은 컴퓨팅 수준에서만 가능해지는 고가치·고위험 능력을 체계적으로 놓친다. 단일 예산 평가는 모델 간 불평등한 비교, 의사 결정자들의 에이전트 능력 과소평가, 실제 위험 규모 은폐로 이어질 수 있다.

AI 규제 프레임워크를 수립하는 기관들 — 각국 정부부터 국제 기구까지 — 은 모델의 벤치마크 점수가 단일 수치가 아니라는 점을 인식해야 한다. 그것은 평가자가 설정한 컴퓨팅 예산의 함수다. 이 예산에 대한 명시적 명세 없이는 모델 간 비교는 방법론적으로 신뢰할 수 없다.

AISI는 능력 곡선 접근 방식으로의 전환을 제안한다. 다양한 예산 포인트에 걸쳐 성능을 측정하고, 각 모델에 대한 도달 범위·신뢰성·효율성 프로파일을 파악하며, 완전한 그림을 바탕으로 위험에 관한 결론을 도출해야 한다. 보안 팀에 대한 함의는 명확하다. 평가에서 특정 공격 유형에 대한 능력을 보이지 않은 모델은 평가자의 예산 한계 뒤에 그 능력을 숨기고 있었을 수도 있다.

영국 AISI: AI 에이전트 평가는 컴퓨팅 예산을 반드시 고려해야 한다

에이전트 능력은 토큰 예산에 따라 달라진다

기존 평가는 실제로 무엇을 측정하는가?

최신 모델은 더 많은 컴퓨팅에서 불균형적으로 이익을 얻는다

고정 예산의 규제적 함의

자주 묻는 질문

출처

관련 뉴스