OpenThoughts-Agent: AI 에이전트용 데이터 레시피

OpenThoughts-Agent는 에이전트 언어 모델을 위한 오픈 데이터 큐레이션 파이프라인입니다. 100회 이상의 절제 실험을 통해 10만 개 예제를 구축하고 Qwen3-32B를 파인튜닝한 결과, 7개 에이전트 벤치마크에서 44.8%를 달성해 기존 오픈소스 모델을 모두 능가했습니다.

에이전트 모델을 위한 ‘데이터 레시피’란 무엇입니까?

에이전트 모델 — 다단계 작업을 자율적으로 계획하고 실행하는 언어 모델 — 은 일반 챗봇이나 인스트럭션 튜닝 데이터 세트와는 다른 유형의 데이터를 필요로 합니다. UC Berkeley, NYU 및 협력 기관의 연구진은 바로 이 데이터 큐레이션 과정을 체계화하는 오픈 파이프라인인 OpenThoughts-Agent를 발표했습니다.

100회 실험, 보다 명확한 레시피

팀은 100회 이상의 통제된 절제 실험을 수행했습니다. 하나의 매개변수를 변경하면서 나머지를 고정하는 체계적인 비교를 통해 예제 선택 및 필터링 결정 중 모델의 에이전트 능력에 가장 큰 영향을 미치는 요소를 파악했습니다. 그 결과 10만 개의 큐레이션된 예제 세트를 구축해 Qwen3-32B를 파인튜닝했습니다.

결과: 오픈소스 경쟁 모델보다 3.9%포인트 우위

파인튜닝된 모델은 7개 에이전트 벤치마크에서 평균 44.8% 정확도를 달성했습니다. 이는 오픈 모델 기존 최고인 Nemotron-Terminal-32B(40.9%)보다 3.9%포인트 높은 수치로, 차이가 좀처럼 크지 않은 분야에서 측정 가능한 진전입니다.

완전 공개

파이프라인, 데이터 세트 및 모델은 openthoughts.ai에 공개되어 있어, 독자적인 데이터 처리 과정에 접근하기 어려운 연구자들도 이 연구를 재현하고 발전시킬 수 있습니다. 논문은 2026년 6월 23일에 제출되었습니다.

자주 묻는 질문

OpenThoughts-Agent란 무엇이며 어떤 용도로 사용됩니까?

OpenThoughts-Agent는 다단계 작업을 자율적으로 수행하는 LLM을 훈련하기 위한 오픈소스 도구 및 데이터 세트입니다. 파이프라인은 에이전트 능력에 특화된 예제 선택 및 필터링 방법을 포함합니다.

기존 오픈소스 모델보다 얼마나 뛰어납니까?

파인튜닝된 Qwen3-32B는 7개 에이전트 벤치마크에서 평균 44.8% 정확도를 달성했습니다. 이는 기존 최고 오픈 모델인 Nemotron-Terminal-32B(40.9%)보다 3.9%포인트 높은 수치입니다.

arXiv:2606.24855: OpenThoughts-Agent — 에이전트 모델 훈련을 위한 오픈 데이터 레시피

에이전트 모델을 위한 ‘데이터 레시피’란 무엇입니까?

100회 실험, 보다 명확한 레시피

결과: 오픈소스 경쟁 모델보다 3.9%포인트 우위

완전 공개

자주 묻는 질문

출처

관련 뉴스