SEA: 실시간 공식 안전 보장을 갖춘 자기 수정 에이전트
SEA(Anytime-Valid Certificates를 갖춘 자기 진화 에이전트) 아키텍처는 에이전트가 공식 학습 이론적 보장을 유지하면서 자체 매개변수를 업데이트할 수 있게 한다. 5가지 검증 메커니즘과 감사 가능한 인증서가 각 자기 수정을 실시간으로 승인하거나 차단하며, SWE-bench Verified 테스트에서 강력한 기반 모델 대비 +4~+5 추가 인스턴스 해결 성과를 달성했다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
연구자 Biswa Sengupta는 2026년 7월 1일 AI 에이전트 개발의 근본적인 긴장을 해결하는 SEA(Self-Evolving Agents with Anytime-Valid Certificates) 아키텍처를 발표했다. 공식 안전 보장을 희생하지 않고 어떻게 자기 수정을 가능하게 할 것인가의 문제다.
감독 없는 자기 수정의 문제
자체 가중치나 제어 메커니즘을 업데이트할 수 있는 에이전트는 고전적 학습 이론의 근본 전제를 무너뜨린다. 에이전트가 자체 학습을 위한 데이터를 스스로 생성하고 그 데이터의 품질을 스스로 평가할 때, 표준 통계적 프레임워크는 유효성을 잃는다 — 변화가 유익한지 확인하는 독립적인 평가자가 없다.
기존 접근 방식은 자기 수정을 금지하거나(적응 잠재력을 잃음) 통제되지 않은 자기 개선을 수용하거나(예측 불가능한 동작을 수용) 중 하나를 선택해야 했다.
SEA: 공식 게이트를 갖춘 아키텍처
SEA는 세 가지 수준에서 이 긴장을 해결한다.
첫째, ‘피해 반경’ 제한: 모든 자기 수정은 동결된 기반 모델을 둘러싼 스티어링 어댑터로만 제한된다. 모델의 기본 가중치는 절대 변경되지 않는다 — 완전히 잘못된 자기 수정 시나리오에서도 모델의 기본 능력은 손상되지 않는다는 것을 의미한다.
둘째, 외부 평가자 없이 각 수정의 승인 또는 거부 신호를 생성하는 5가지 검증 메커니즘:
- Best-of-N 선택 — 여러 후보 수정 비교
- 마이크로-스텝 탐색 — 적응 공간의 세밀한 탐색
- 자체 작성 오라클 — 에이전트가 자신의 수정을 위한 테스트를 직접 구성
- 탐색 계층 제어 — 탐색의 깊이와 방향 감독
- 자기 수리 — 실시간 회귀 감지 및 수정
’Anytime-Valid 인증서’란 무엇인가?
세 번째 계층은 통계적이다: SEA는 제안된 각 자기 수정에 대해 감사 가능한 인증서를 발급하는 anytime-valid 통계적 게이트를 사용한다. 인증서는 수정이 평가 기간 마지막뿐만 아니라 언제든지 사전에 정의된 오류 예산을 초과하지 않는다는 것을 확인한다.
‘Anytime-valid’는 평가가 언제 중단되더라도 결론이 유효하다는 것을 의미한다 — 사전 정의된 스텝 수가 필요 없다. 이는 에이전트가 실시간으로 작동하며 자기 수정에 관한 결정을 지속적으로 내려야 하는 배포 시나리오에서 중요하다.
SWE-bench Verified 결과
SEA는 4개의 기반 모델을 대상으로 52개 인스턴스의 SWE-bench Verified 벤치마크 하위 집합에서 테스트되었다. 핵심 발견: 기반 모델이 지배적인 요소다 — SEA는 강력한 모델의 능력을 증폭시키지만 약한 모델의 약점을 감추지는 못한다.
no-op 컨트롤을 가진 강력한 기반 모델에서 SEA는 +4~+5개 추가 해결 인스턴스를 달성한다. 구체적 결과: GLM이 24개에서 28개로, GPT가 29개에서 34개로 향상되었다. 이벤트 로그는 검증 메커니즘이 테스트 중 성능 회귀를 적극적으로 방지했음을 확인했다.
연구자들은 태스크 비용으로 인해 단일 반복으로 평가가 수행되었으며, 실행 간 분산 확인은 향후 연구로 남겨두었다고 밝혔다.
SEA는 자기 개선과 안전 거버넌스가 상충하지 않는다는 것을 증명한다 — 공식 인증이 운영 에이전트의 경계 내에서 가능하고 실용적으로 유용하다.
자주 묻는 질문
- SEA는 기존 자기 개선 에이전트와 어떻게 다른가?
- SEA는 자유로운 자기 수정을 허용하지 않는다 — 모든 변경은 감사 가능한 인증서를 발급하고 사전에 정의된 오류 예산을 초과하는 수정을 차단하는 anytime-valid 통계적 게이트를 통과해야 한다.
- 잘못된 자기 수정의 '피해 반경'은 어떻게 제한되는가?
- SEA는 동결된 기반 모델을 감싸는 스티어링 어댑터로만 모든 수정을 제한하므로, 잠재적으로 해로운 자기 편집이 모델의 기본 가중치를 변경할 수 없다.
- SEA는 SWE-bench 테스트에서 성능을 얼마나 향상시켰는가?
- 4개의 기반 모델로 테스트한 52개 인스턴스의 SWE-bench Verified 하위 집합에서 SEA는 강력한 기반 모델 대비 +4~+5개 추가 인스턴스를 해결했다 — GLM은 24개에서 28개로, GPT는 29개에서 34개로 향상되었다.