GitHub: 지배자 분석으로 AI 에이전트 검증, 정확도 100%

GitHub이 비결정론적 AI 에이전트를 위한 검증 프레임워크를 발표했습니다. 컴파일러 이론의 지배자 분석(Dominator Analysis)을 차용하여 Copilot Coding Agent의 2~10회 성공 실행에서 필수 단계와 선택적 단계를 학습하고, 에이전트 버그와 실제 제품 회귀를 구분하는 데 100% 정확도를 달성합니다.

GitHub 연구팀은 CI/CD 파이프라인에서 AI 에이전트의 비결정론적 동작 문제를 해결하기 위해 **컴파일러 이론의 지배자 분석(Dominator Analysis)**을 차용한 검증 프레임워크를 발표했습니다. 전통적인 테스트는 결정론적 실행 경로를 전제하지만, Copilot Coding Agent 같은 에이전트는 서로 다른 유효한 실행 경로를 거치는 경우가 많습니다. 환경 변이(로딩 화면, 타이밍 차이, UI 렌더링 차이)가 거짓 음성을 만들어냅니다.

지배자 분석이란 무엇이고 에이전트에 어떻게 적용되나?

지배자 분석(Dominator Analysis)은 컴파일러 이론의 기법입니다. 실행 그래프에서 B에 이르는 모든 성공 경로가 반드시 A를 통과해야 한다면 상태 A가 B를 ‘지배한다’고 합니다. GitHub의 프레임워크는 2~10회의 성공적인 에이전트 트레이스를 가져와 **접두사 트리 수용기(PTA, Prefix Tree Acceptor)**로 변환합니다. 이는 관측된 상태를 노드로, 에이전트 행동을 에지로 하는 유향 그래프입니다. 지배 집합을 계산하여 필수 제어 지점과 선택적 노이즈를 분리합니다.

시스템은 3계층 상태 동등성 평가를 사용합니다. 시각적 지표(지각 해싱, SSIM), 타임스탬프를 무시하되 누락된 UI 컨트롤을 기록하는 멀티모달 LLM을 통한 의미론적 분석, 동등성이 확실할 때만 수행하는 보수적 상태 병합이 그것입니다.

에이전트 자기 평가 대비 측정된 이점은 무엇인가?

VS Code 확장의 내부 테스트 세트에서 지배자 분석을 사용한 PTA 방식은 **정확도 100%, 정밀도 100%, 재현율 100%**를 달성한 반면, 에이전트 자체 평가는 정확도 82.2%, 정밀도 83.3%, 재현율 60%에 그쳤습니다. 차이는 재현율에서 가장 크게 나타납니다. 약 40 퍼센트 포인트 차이로, 에이전트가 자신의 실수를 자주 놓친다는 의미입니다.

더 중요한 것은 에이전트 자기 평가의 거짓 경보 탐지 **F1 점수가 0%**인 반면, 구조적 프레임워크는 에이전트 실행 오류와 실제 제품 회귀를 구분하는 **F1 점수 52.2%**를 달성한다는 점입니다. 실제로 이는 타이밍만 변화했고 제품의 실제 동작은 변경되지 않은 경우에 CI 시스템이 개발자를 가짜 버그 사냥에 보내는 일이 사라짐을 의미합니다.

프레임워크의 현재 한계는 무엇인가?

시스템은 학습을 위해 성공 트레이스가 필요하고(콜드 스타트 문제), 의미론적 동등성을 위해 멀티모달 LLM 접근이 필요하며, 로딩 화면이 너무 오래 지속되는 것 같은 시간적 위반은 아직 감지할 수 없습니다. 계획 중인 개발에는 시간적·부정적 제약 탐지, 스크린샷의 개념으로의 계층적 추상화, 실시간 모델 갱신 온라인 학습이 포함됩니다.

저자인 Gaurav Mittal(Microsoft Code AI)과 Reshabh Kumar Sharma(UW 박사 과정)는 핵심 논지를 강조합니다. “블랙박스 모델이 다른 블랙박스 모델을 평가할 필요는 없습니다. 개발자가 검사할 수 있는 구조적 보증이 필요합니다.”

자주 묻는 질문

지배자 분석이란 무엇입니까?

지배자 분석(Dominator Analysis)은 컴파일러 이론의 기법으로, 실행 그래프에서 목표 B에 이르는 모든 성공 경로가 반드시 A를 통과해야 할 때 A가 B를 '지배한다'고 합니다. 여기서는 에이전트 실행 트레이스에 적용하여 필수 제어 지점과 우발적 변이를 분리합니다.

프레임워크가 학습하는 데 필요한 트레이스 수는 얼마입니까?

2~10회의 성공적인 에이전트 실행으로 충분합니다. 시스템은 접두사 트리 수용기(PTA)를 구성하고 의미적으로 동등한 상태를 병합하여 최소 '기준 진실' 모델을 추출합니다.

CI/CD 파이프라인에서의 주요 이점은 무엇입니까?

환경 변이(로딩 화면, 타이밍, UI 렌더링)로 인한 거짓 음성 감소입니다. 에이전트 자기 평가는 거짓 경보 탐지 F1이 0%인 반면, 구조적 프레임워크는 52.2%에 달합니다.

GitHub: 컴파일러 이론의 지배자 분석으로 에이전트 동작 검증, 정확도 100% vs 에이전트 자기 평가 82%

지배자 분석이란 무엇이고 에이전트에 어떻게 적용되나?

에이전트 자기 평가 대비 측정된 이점은 무엇인가?

프레임워크의 현재 한계는 무엇인가?

자주 묻는 질문

출처

관련 뉴스