arXiv MOSS：에이전트가 자신의 소스 코드를 수정（2026년 5월）

연구자들이 MOSS를 제안했습니다. 이는 프롬프트나 파인 튜닝 가중치가 아닌 자신의 소스 코드를 재작성하여 개선하는 자율 에이전트 프레임워크입니다. OpenClaw 벤치마크에서 한 사이클의 MOSS 자기 진화가 점수를 인간의 개입 없이 0.25에서 0.61로 끌어올려, 에이전트가 텍스트 전용 방법으로는 건드릴 수 없는 라우팅, 훅, 디스패치 로직을 수정할 수 있음을 보여줍니다.

2026년 5월 21일 공개된 arXiv 프리프린트 MOSS는 프롬프트나 파인 튜닝 가중치가 아닌 자신의 소스 코드를 재작성하여 개선하는 자율 에이전트 프레임워크를 제시합니다. 저자들은 MOSS 에이전트가 프로덕션 실패를 식별하고, 수정을 코딩 에이전트에 위임하고, 임시 테스트 샌드박스에서 변경을 검증하고, 검증 후에만 롤백 메커니즘으로 배포하는 과정을 문서화합니다. OpenClaw 벤치마크의 한 번의 자율 사이클에서 점수가 기준선 0.25에서 0.61로 급등했으며, 저자들은 이것을 0.28에 머무는 프롬프트 전용 자기 개선 기준선과 비교했습니다.

MOSS는 구조적 수정과 표면적 수정을 어떻게 구분합니까？

MOSS는 두 가지 실패 범주를 구분합니다. 표면적 실패는 잘못된 프롬프트, few-shot 블록의 나쁜 예시, 또는 너무 경직되게 정의된 페르소나——이 모든 것은 프롬프트 엔지니어링으로 수정할 수 있습니다. 구조적 실패는 멀티 에이전트 디스패치의 잘못된 라우팅 규칙, 오류 처리의 누락된 훅, 병렬 서브 에이전트에서 상태에 대한 안전하지 않은 접근, 도구 통합의 논리 오류입니다. MOSS는 이러한 실패가 프롬프트 텍스트가 아닌 Python/TypeScript 코드에 존재하기 때문에 프롬프트 전용 방법이 구조적 실패를 수정할 수 없음을 보여줍니다.

구체적으로, MOSS가 OpenClaw 작업에서 서브 에이전트가 반유효한 JSON을 반환하는 것을 감지하면, 서브 에이전트가 「더 주의를 기울이도록」 프롬프트를 재작성하려 하지 않습니다——dispatch.py를 열고 롤백 시맨틱을 가진 JSON Schema 유효성 검사기를 추가하고, 샌드박스에 변경을 배포하고, 실패했던 시나리오가 이제 통과하는지 확인합니다. 이는 프롬프트 전용 기준선이 복제할 수 없는 구조적 수정입니다.

OpenClaw 벤치마크란 무엇이고 0.61이 왜 중요한가？

OpenClaw는 에이전트가 검색 및 요약, 코드 수정, 배포 검증 작업의 조합을 해결해야 하는 240개의 멀티 스텝 프로덕션 작업을 가진 벤치마크입니다. 기준 점수 0.25는 자기 개선 루프 없는 최첨단 LLM 에이전트에게 예상되는 값입니다. 한 번의 MOSS 사이클 후 0.61은 240개 작업 중 87개의 추가 작업이 이제 성공적으로 해결됨을 의미합니다——이는 독립적으로 자율 개선된 에이전트 세션으로서 경계선상의 초인적 성능입니다.

저자들은 MOSS가 「마법의 트릭」을 찾은 것이 아님을 강조합니다——수정은 구체적이고 감사 가능합니다. 전형적인 수정은 15-40줄의 Python 코드이며, 2-8분의 실제 시간이 소요되고, 인간 검토자가 읽을 수 있는 git 커밋 기록을 남깁니다.

어떤 보안 위험이 있고 MOSS는 어떻게 대응합니까？

저자들은 보안 메커니즘을 자세히 논의합니다. 모든 변경은 실제 데이터에 접근하지 않고 프로덕션 환경을 시뮬레이션하는 임시 테스트 샌드박스를 통과합니다. 배포 전에 MOSS가 해결한 각 새로운 시나리오마다 자동으로 확장되는 회귀 테스트 세트를 통과해야 합니다. 프로덕션 지표에서 새로운 회귀가 발견되면 배포 후 롤백이 활성화됩니다. 모든 변경은 어떤 실패 클래스를 수정하는지 설명하는 상세한 커밋 메시지와 함께 git에 커밋됩니다.

그러나 저자들은 열린 문제를 인정합니다：에이전트가 자신의 코드를 수정할 수 있다면 인간 검토자가 실시간으로 모든 반복을 추적할 수 없습니다. 그들은 프로덕션에서 MOSS를 사용할 때 누적된 변경이 안정된 브랜치에 통합되기 전에 인간이 검토하는 주간 감독 게이트와 함께 사용할 것을 제안합니다. 이것 없이는 시스템이 국지적으로는 합리적이지만 전체적으로는 에이전트의 의미론을 원하지 않는 방식으로 바꾸는 미묘한 변경을 축적할 수 있습니다.

자주 묻는 질문

MOSS는 표준 자기 개선 에이전트와 어떻게 다릅니까？

표준 자기 개선 에이전트는 프롬프트나 파인 튜닝 가중치만 수정합니다；MOSS는 에이전트 자신의 소스 코드——라우팅, 훅, 디스패치 로직——를 수정하여 프롬프트 전용 방법으로는 할 수 없는 구조적 수정을 가능하게 합니다.

MOSS 논문의 주요 지표 숫자는 무엇입니까？

OpenClaw 벤치마크에서 MOSS는 한 사이클의 자기 진화로 인간의 개입 없이 점수를 0.25에서 0.61로 끌어올리며, 동등한 프롬프트 전용 기준선은 0.28에 머뭅니다.

자율 자기 진화 에이전트의 위험성은 무엇입니까？

주요 위험은 감독 상실입니다——에이전트가 자신의 코드를 수정할 수 있다면, 인간 검토자가 모든 반복을 추적할 수 없습니다. MOSS 저자들은 임시 샌드박스 테스트, 롤백 메커니즘, 프로덕션 배포 전 고품질 감독 게이트의 조합을 제안합니다.

arXiv:2605.22794：MOSS, 자신의 소스 코드를 수정하여 자기 개선하는 에이전트 시연

MOSS는 구조적 수정과 표면적 수정을 어떻게 구분합니까？

OpenClaw 벤치마크란 무엇이고 0.61이 왜 중요한가？

어떤 보안 위험이 있고 MOSS는 어떻게 대응합니까？

자주 묻는 질문

출처

관련 뉴스