어떤 모델들이 테스트되었습니까?

연구에서는 GPT-4o, Claude Sonnet 4.6, Claude Opus 4.7, Gemini 3 Pro를 격리 환경(외부 도구 없음)과 에이전트 환경(Excel API 도구 포함)에서 테스트합니다. 성능은 수식 정확도, 최종 상태 유효성, 워크플로우 완료율로 측정됩니다.

결과의 실질적인 함의는 무엇입니까?

『회계사를 위한 AI』(자동 청구서 처리기, AI 부기 담당자)를 표방하는 SaaS 제품에게 결과는 각 단계를 인간이 검토하지 않고서는 실제 금융 스프레드시트 워크플로우의 신뢰할 수 있는 자동화가 아직 달성 불가능함을 보여줍니다.

arXiv WorkstreamBench：AI 에이전트가 Excel 금융 작업에서 실패하다

Q: 금융 스프레드시트 워크플로우가 AI에게 어려운 이유는 무엇입니까?

금융 분야의 스프레드시트 작업은 고립된 Excel 기술이 아닙니다——10~50개의 셀을 연결하는 엔드투엔드 로직, vlookup과 index-match 구조를 포함한 수식, 외부 소스와의 검증, 비즈니스 규칙을 반영하는 조건부 서식이 포함됩니다. 에이전트는 구조와 의미를 모두 이해해야 합니다.

WorkstreamBench는 Thomson Yen이 이끄는 10명의 저자가 만든 새 벤치마크로, 금융 도메인에서 청구서, 보고서, 비용 분석 등 실제 Excel 및 스프레드시트 작업을 LLM 에이전트에 대해 테스트합니다. GPT-4o, Claude, Gemini를 비교했으나 어떤 모델도 전체 작업 세트를 신뢰할 수 있게 완료하지 못했으며, 이는 엔터프라이즈 금융을 위한 현재 에이전트 인프라에 구조적 결함이 있음을 나타냅니다.

arXiv 프리프린트 WorkstreamBench는 2026년 5월 22일 공개되어 금융 도메인에서 LLM 에이전트를 실제 엔드투엔드 스프레드시트 작업으로 테스트하는 최초의 벤치마크를 제안합니다. Thomson Yen이 이끄는 총 10명의 저자는 회계사와 재무 분석가의 실제 일상 업무에 해당하는 작업을 설계했습니다. 청구서 처리, 월간 보고서 생성, 여러 워크시트에 걸친 비용 분석이 이에 해당합니다. 주요 발견: Excel API 도구에 접근하더라도 어떤 프론티어 모델도 전체 작업 세트를 신뢰할 수 있게 완료하지 못했습니다.

금융 스프레드시트 워크플로우가 AI에게 어려운 이유는 무엇입니까?

표면적으로 도구 접근 권한을 가진 LLM이 업무 작업을 쉽게 해결할 수 있을 것처럼 보일 수 있습니다——GPT와 Claude는 이미 MMLU 수학과 HumanEval 프로그래밍에서 높은 점수를 보여주고 있습니다. 그러나 실제 스프레드시트 워크플로우에는 MMLU 유형의 벤치마크가 다루지 않는 여러 레이어가 포함됩니다.

구조적 복잡성: 워크플로우는 종종 상호 연결된 수식을 가진 10~50개의 셀에 걸칩니다. 하나의 입력을 변경하면 하류 결과의 연쇄 반응이 발생합니다. 에이전트는 개별 수식뿐만 아니라 의존성 그래프를 이해해야 합니다.

혼합된 수식 스타일: 실제 스프레드시트는 VLOOKUP, INDEX-MATCH, SUMPRODUCT, 동적 배열 수식(현대 Excel 버전의 FILTER, SORT, UNIQUE), 피벗 테이블 참조 및 사용자 정의 명명 범위를 결합합니다. 에이전트는 각각이 워크플로우에서 담당하는 의미적 역할을 이해해야 합니다.

외부 검증: 구체적인 수치(세율, 환율, 계정 코드)는 외부 참조 자료와 일치해야 합니다. 구문적으로 올바른 워크플로우를 생성하지만 2026년의 잘못된 세율을 사용하는 에이전트는 합리적으로 보이지만 비즈니스적으로 틀린 결과를 생성합니다.

비즈니스 로직으로서의 조건부 서식: 실제 업무에서 조건부 서식은 비즈니스 규칙을 표현합니다(기한 초과 청구서는 빨강, 승인된 거래는 초록). 에이전트는 서식이 단순한 장식이 아니라 의미적 레이어임을 이해해야 합니다.

어떤 모델들이 테스트되었으며 결과는 어떻습니까?

연구에서는 4개의 프론티어 모델을 두 가지 환경에서 테스트합니다. 격리 환경(모델이 스프레드시트의 CSV 표현을 받고 텍스트 답변을 작성함)과 에이전트 환경(모델이 Excel COM API 또는 openpyxl 도구에 접근하여 작업을 실행할 수 있음)입니다.

에이전트 환경에서의 결과:

모델	청구서	보고서	분석	합계
GPT-4o	58%	47%	41%	49%
Claude Sonnet 4.6	54%	51%	43%	49%
Claude Opus 4.7	63%	56%	52%	57%
Gemini 3 Pro	51%	44%	38%	44%

Claude Opus 4.7가 57%의 종합 점수로 선두를 차지하지만, 이는 43%의 작업이 부정확한 결과를 생성함을 의미합니다. 금융에서 부정확한 결과는 『거의 맞음』이 아닙니다——일치하지 않는 계좌, 잘못된 청구 금액, 규제 기관에 제출하는 잘못된 보고서를 의미합니다.

구체적인 실패 패턴은 무엇입니까?

저자들은 4가지 가장 일반적인 실패 패턴을 문서화합니다.

참조 드리프트: 에이전트가 하나의 셀을 업데이트하지만 이를 참조하는 모든 수식을 업데이트하지 않습니다. 결과: 요약 금액이 세부 수치와 일치하지 않음.
서식 무시: 에이전트가 올바른 숫자 값을 생성하지만 워크플로우가 요구하는 통화 형식이나 소수점 정밀도를 적용하지 않습니다——비즈니스 분석가가 거부하는 보고서 생성.
검증 건너뜀: 에이전트가 생성된 금액이 외부 소스(예: PDF 청구서)와 일치하는지 확인하지 않습니다. 결과: 스프레드시트 상태가 현실과 일치하지 않음.
스키마 파손: 에이전트가 새 열을 추가하지만 해당 데이터를 사용하는 피벗 테이블이나 대시보드를 업데이트하지 않습니다——하류 보고서가 손상됨.

이것은 『회계사를 위한 AI』를 표방하는 SaaS 제품에 어떤 의미가 있습니까?

엔터프라이즈 AI 제품에 대한 함의는 구체적입니다. 『자동 청구서 처리』 또는 『AI 부기 담당자』를 표방하는 제품들——크로아티아와 유럽 시장의 일부 최고 SaaS 제품 포함——은 각 단계를 인간이 검토하지 않고서는 전체 워크플로우를 신뢰할 수 있게 처리하지 못할 가능성이 높습니다. 마케팅 자료는 종종 자율적인 처리를 암시하지만, 벤치마크는 현실이 여전히 『AI가 제안하고, 인간이 승인한다』임을 증명합니다.

저자들은 두 가지 개선 방향을 제안합니다. 첫째, 엄선된 스프레드시트 워크플로우 데이터셋(벤치마크가 사용하는 약 10,000개 작업의 레이블된 데이터셋)에 대한 모델 파인튜닝. 둘째, 변경 사항을 적용하기 전에 이전 상태와 새 상태가 의미적으로 동등한지 검증하는 공식 검증 레이어 통합——이를 통해 참조 드리프트와 스키마 파손 실패 패턴을 방지할 수 있습니다.

WorkstreamBench는 공개되어 있어 결과를 재현하거나 확장하고자 하는 연구자가 이용할 수 있습니다.

arXiv:2605.22664：WorkstreamBench, 금융 분야 엔드투엔드 스프레드시트 작업에서 LLM 에이전트를 테스트하고 프론티어 모델은 부진한 결과를 보입니다

금융 스프레드시트 워크플로우가 AI에게 어려운 이유는 무엇입니까?

어떤 모델들이 테스트되었으며 결과는 어떻습니까?

구체적인 실패 패턴은 무엇입니까?

이것은 『회계사를 위한 AI』를 표방하는 SaaS 제품에 어떤 의미가 있습니까?

자주 묻는 질문

출처

관련 뉴스