ArXiv: TREX — 두 개의 AI 에이전트가 언어 모델 파인튜닝 전체 프로세스를 자동화
왜 중요한가
TREX는 요건 분석과 문헌 검색에서 데이터 준비와 결과 평가까지, 대형 언어 모델 파인튜닝의 완전한 파이프라인을 자동화하는 새로운 멀티 에이전트 시스템입니다. 이 시스템은 실험 프로세스를 탐색 트리로 모델링하며, 10개의 실제 작업을 포함한 FT-Bench 벤치마크에서 모델 성능을 지속적으로 최적화합니다.
문제: 파인튜닝에는 과도한 인력이 필요
대형 언어 모델의 파인튜닝 — 사전 훈련된 모델을 특정 작업에 적응시키는 프로세스 — 은 현재 상당한 인간 전문 지식을 요구합니다. 연구자는 요건을 분석하고, 관련 문헌을 검색하고, 데이터를 준비하고, 하이퍼파라미터를 선택하고, 실험을 수행하고, 결과를 평가해야 합니다. 이 각 단계에는 경험과 직관에 의존하는 의사 결정이 포함됩니다.
연구자 Zerun Ma, Guoqiang Wang, Xinchen Xie는 두 개의 조율된 AI 에이전트를 사용하여 전체 프로세스를 자동화하는 시스템인 TREX를 제안합니다.
TREX는 어떻게 작동하는가?
시스템은 두 개의 모듈을 기반으로 합니다. Researcher(연구자)는 요건 분석, 문헌 및 데이터 소스 검색, 훈련 전략 수립을 담당합니다. Executor(실행자)는 데이터 레시피 준비에서 훈련 실행과 결과 평가까지 구체적인 실험을 구현합니다.
핵심 혁신은 실험 프로세스를 탐색 트리로 모델링하는 것입니다. 트리의 각 노드는 특정 훈련 구성을 나타내며, 가지는 변형으로 이어집니다. 시스템은 탐색 경로를 효율적으로 계획하고, 이전 실험의 결과를 재활용하며, 반복적인 시도에서 인사이트를 도출할 수 있습니다. 매번 처음부터 시작하는 대신에 말이죠.
FT-Bench 벤치마크 결과
평가를 위해 연구자들은 기본 능력 최적화에서 도메인별 성능 향상까지 다양한 범위를 포괄하는 10개의 실제 작업을 포함한 FT-Bench 벤치마크를 개발했습니다. 결과는 TREX 에이전트가 “목표 작업에서 모델 성능을 지속적으로 최적화”함을 보여줍니다.
정기적으로 모델을 파인튜닝하는 팀에게, TREX는 실험 시간과 비용을 크게 줄여줄 것으로 기대됩니다. 현재 고가의 ML 엔지니어들이 수행하는 일상적인 단계를 자동화함으로써 말이죠.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.