DeepSeek, V4-Pro와 V4-Flash 공개: 100만 토큰 컨텍스트 오픈소스 모델, SWE Verified 80.6점 달성
왜 중요한가
DeepSeek은 2026년 4월 24일 V4-Pro(1.6조/490억 활성 파라미터)와 V4-Flash(2840억/130억 활성 파라미터)를 공개했습니다. 100만 토큰 컨텍스트를 지원하는 두 오픈소스 모델로, V4-Pro는 SWE Verified에서 80.6점을 달성해 Opus 4.6에 근접하면서도 메모리 소비를 대폭 줄였습니다.
DeepSeek은 2026년 4월 24일(목요일), V4 시리즈의 프리뷰 버전으로 두 개의 오픈 웨이트 모델을 발표했습니다. V4-Pro(총 파라미터 1.6조, 활성 파라미터 490억)와 V4-Flash(총 파라미터 2840억, 활성 파라미터 130억)로, 두 모델 모두 모든 공식 서비스에서 기본값으로 100만 토큰 컨텍스트를 지원합니다.
이번 출시는 프론티어 모델 간의 경쟁이 순수한 벤치마크 수치에서 긴 컨텍스트 효율성과 에이전트 워크플로우 영역으로 이동하는 시점에 등장했습니다. DeepSeek은 Hugging Face Hub에 모델 가중치와 기술 보고서를 공개했습니다.
새로운 V4 아키텍처가 가져오는 것은?
핵심 혁신은 두 가지 상호 보완적 기술을 결합한 하이브리드 어텐션 메커니즘입니다. 첫 번째는 **CSA(압축 희소 어텐션)**로, 학습된 위치 방식을 사용해 4개의 토큰마다 하나의 KV 레코드로 압축하고 FP4 「라이트닝 인덱서」가 쿼리별로 가장 관련성 높은 압축 블록의 top-k를 선택합니다.
두 번째는 128배 압축률의 **HCA(고압축 어텐션)**로, 고도로 압축된 블록에 희소 선택 없이 밀집 MQA(멀티쿼리 어텐션)를 사용합니다. 두 기술 모두 최신 토큰에 대해 전체 어텐션 슬라이딩 윈도우를 유지합니다.
결과적으로 **KV 캐시는 표준 GQA-8 기준선의 단 2%**에 불과합니다. 100만 토큰 컨텍스트에서 V4-Pro는 V3.2가 필요로 했던 FLOPs의 27%를 소비하고, V4-Flash는 불과 10%입니다.
실제 작업에서의 성능은?
실제 GitHub 버그를 자율적으로 해결하는 능력을 측정하는 SWE Verified 벤치마크에서 V4-Pro-Max는 **80.6%**를 달성해 Anthropic의 Opus 4.6-Max(80.8%)와 거의 동등합니다. 도구 오케스트레이션을 측정하는 Toolathlon에서 V4-Pro는 51.8점으로 Kimi K2.6(50.0점)을 앞서 1위를 기록했습니다.
PyTorch, CUDA, Rust, C++에서 30개 문제로 구성된 내부 벤치마크에서 V4-Pro-Max는 67%의 작업을 해결해, Opus 4.5(70%)에 약간 못 미치지만 Sonnet 4.5(47%)를 크게 앞섰습니다. 91명의 DeepSeek 엔지니어를 대상으로 한 내부 설문에서 52%가 주요 코딩 모델을 교체할 의향이 있었고, 추가로 39%가 「예」에 가까운 답변을 했습니다.
에이전트 포스트 트레이닝은 어떻게 작동합니까?
아키텍처 변경에 더해 DeepSeek은 인터리브드 씽킹을 도입했습니다——다단계 도구 호출 흐름에서 사용자 메시지 경계를 넘어 추론 체인을 유지합니다. 도구 없이는 모델이 클래식하게 동작하며 각 새 메시지마다 추론을 지웁니다.
도구 호출에는 특별한 |DSML| 토큰이 포함된 XML 도구 호출 형식이 도입되었습니다. 예시:
|DSML|
<tool_call>
<function_name>search</function_name>
<parameters>
<param name="query" string="true">자그레브 날씨</param>
</parameters>
</tool_call>
이 방식의 장점은 중첩된 따옴표 이스케이프 오류를 줄이고 문자열 파라미터와 구조화된 파라미터를 분리하는 것으로, 이는 JSON 스키마의 전형적인 문제점입니다.
DSec 샌드박스란 무엇입니까?
에이전트 강화 학습을 위해 DeepSeek은 Rust 기반 인프라스트럭처 **DSec(DeepSeek Elastic Compute)**를 구축했습니다. 이는 4개의 실행 레이어를 지원합니다: 함수 호출, 컨테이너, 마이크로VM(Firecracker), 전체 VM(QEMU). 시스템은 수십만 개의 병렬 샌드박스로 확장 가능하며 「선점 안전 재생」을 지원합니다——도구 호출을 재실행하지 않고 트레이닝을 재개할 수 있습니다.
이 인프라스트럭처가 V4가 합성 추적이 아닌 실제 도구 환경에서 트레이닝될 수 있는 이유이며, Toolathlon과 MCPAtlas 벤치마크에서의 강력한 성능에 명확히 나타납니다.
마이그레이션 기한은 언제입니까?
DeepSeek은 동시에 기존 엔드포인트 deepseek-chat과 deepseek-reasoner가 2026년 7월 24일 UTC 15:59에 완전히 종료된다고 발표했습니다. DeepSeek API를 사용하는 개발 팀은 3개월의 마이그레이션 기간이 있습니다.
새 버전은 세 가지 추론 모드(비씽킹, 씽킹-하이, 씽킹-맥스)로 이용 가능하며, MoE 전문가에는 FP4 양자화, 나머지에는 FP8 양자화를 사용해 공개되어 메모리 요구사항을 추가로 줄입니다.
모델을 셀프 호스팅하려는 개발 팀에게는 V4-Flash가 더 현실적인 선택입니다——130억 개의 활성 파라미터로 V3.2보다 표준적인 GPU 하드웨어에서 추론을 실행할 수 있습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.