V4-Pro와 V4-Flash의 차이는 무엇입니까?

V4-Pro는 총 1.6조 개, 490억 개의 활성 파라미터를 보유하며 복잡한 에이전트 작업을 대상으로 합니다. V4-Flash는 총 2840억 개, 130억 개의 활성 파라미터로 더 빠르고 저렴한 추론을 제공합니다. 두 모델 모두 100만 토큰 컨텍스트를 지원합니다.

deepseek-chat과 deepseek-reasoner API는 어떻게 됩니까?

DeepSeek은 기존의 deepseek-chat 및 deepseek-reasoner API 엔드포인트를 2026년 7월 24일 UTC 15:59에 완전히 종료한다고 발표했습니다. 사용자는 해당 날짜 전까지 V4 모델로 마이그레이션해야 합니다.

V4-Pro 모델의 벤치마크 결과는 어떻습니까?

V4-Pro는 SWE Verified에서 80.6점(Opus 4.6의 80.8점에 근접), Terminal Bench 2.0에서 67.9점, MCPAtlas Public에서 73.6점을 달성했습니다. Toolathlon에서는 51.8점으로 1위를 기록했습니다.

DeepSeek V4-Pro·V4-Flash: 100만 토큰, SWE 80.6

DeepSeek은 2026년 4월 24일(목요일), V4 시리즈의 프리뷰 버전으로 두 개의 오픈 웨이트 모델을 발표했습니다. V4-Pro(총 파라미터 1.6조, 활성 파라미터 490억)와 V4-Flash(총 파라미터 2840억, 활성 파라미터 130억)로, 두 모델 모두 모든 공식 서비스에서 기본값으로 100만 토큰 컨텍스트를 지원합니다.

이번 출시는 프론티어 모델 간의 경쟁이 순수한 벤치마크 수치에서 긴 컨텍스트 효율성과 에이전트 워크플로우 영역으로 이동하는 시점에 등장했습니다. DeepSeek은 Hugging Face Hub에 모델 가중치와 기술 보고서를 공개했습니다.

새로운 V4 아키텍처가 가져오는 것은?

핵심 혁신은 두 가지 상호 보완적 기술을 결합한 하이브리드 어텐션 메커니즘입니다. 첫 번째는 **CSA(압축 희소 어텐션)**로, 학습된 위치 방식을 사용해 4개의 토큰마다 하나의 KV 레코드로 압축하고 FP4 「라이트닝 인덱서」가 쿼리별로 가장 관련성 높은 압축 블록의 top-k를 선택합니다.

두 번째는 128배 압축률의 **HCA(고압축 어텐션)**로, 고도로 압축된 블록에 희소 선택 없이 밀집 MQA(멀티쿼리 어텐션)를 사용합니다. 두 기술 모두 최신 토큰에 대해 전체 어텐션 슬라이딩 윈도우를 유지합니다.

결과적으로 **KV 캐시는 표준 GQA-8 기준선의 단 2%**에 불과합니다. 100만 토큰 컨텍스트에서 V4-Pro는 V3.2가 필요로 했던 FLOPs의 27%를 소비하고, V4-Flash는 불과 10%입니다.

실제 작업에서의 성능은?

실제 GitHub 버그를 자율적으로 해결하는 능력을 측정하는 SWE Verified 벤치마크에서 V4-Pro-Max는 **80.6%**를 달성해 Anthropic의 Opus 4.6-Max(80.8%)와 거의 동등합니다. 도구 오케스트레이션을 측정하는 Toolathlon에서 V4-Pro는 51.8점으로 Kimi K2.6(50.0점)을 앞서 1위를 기록했습니다.

PyTorch, CUDA, Rust, C++에서 30개 문제로 구성된 내부 벤치마크에서 V4-Pro-Max는 67%의 작업을 해결해, Opus 4.5(70%)에 약간 못 미치지만 Sonnet 4.5(47%)를 크게 앞섰습니다. 91명의 DeepSeek 엔지니어를 대상으로 한 내부 설문에서 52%가 주요 코딩 모델을 교체할 의향이 있었고, 추가로 39%가 「예」에 가까운 답변을 했습니다.

에이전트 포스트 트레이닝은 어떻게 작동합니까?

아키텍처 변경에 더해 DeepSeek은 인터리브드 씽킹을 도입했습니다——다단계 도구 호출 흐름에서 사용자 메시지 경계를 넘어 추론 체인을 유지합니다. 도구 없이는 모델이 클래식하게 동작하며 각 새 메시지마다 추론을 지웁니다.

도구 호출에는 특별한 |DSML| 토큰이 포함된 XML 도구 호출 형식이 도입되었습니다. 예시:

|DSML|
<tool_call>
  <function_name>search</function_name>
  <parameters>
    <param name="query" string="true">자그레브 날씨</param>
  </parameters>
</tool_call>

이 방식의 장점은 중첩된 따옴표 이스케이프 오류를 줄이고 문자열 파라미터와 구조화된 파라미터를 분리하는 것으로, 이는 JSON 스키마의 전형적인 문제점입니다.

DSec 샌드박스란 무엇입니까?

에이전트 강화 학습을 위해 DeepSeek은 Rust 기반 인프라스트럭처 **DSec(DeepSeek Elastic Compute)**를 구축했습니다. 이는 4개의 실행 레이어를 지원합니다: 함수 호출, 컨테이너, 마이크로VM(Firecracker), 전체 VM(QEMU). 시스템은 수십만 개의 병렬 샌드박스로 확장 가능하며 「선점 안전 재생」을 지원합니다——도구 호출을 재실행하지 않고 트레이닝을 재개할 수 있습니다.

이 인프라스트럭처가 V4가 합성 추적이 아닌 실제 도구 환경에서 트레이닝될 수 있는 이유이며, Toolathlon과 MCPAtlas 벤치마크에서의 강력한 성능에 명확히 나타납니다.

마이그레이션 기한은 언제입니까?

DeepSeek은 동시에 기존 엔드포인트 deepseek-chat과 deepseek-reasoner가 2026년 7월 24일 UTC 15:59에 완전히 종료된다고 발표했습니다. DeepSeek API를 사용하는 개발 팀은 3개월의 마이그레이션 기간이 있습니다.

새 버전은 세 가지 추론 모드(비씽킹, 씽킹-하이, 씽킹-맥스)로 이용 가능하며, MoE 전문가에는 FP4 양자화, 나머지에는 FP8 양자화를 사용해 공개되어 메모리 요구사항을 추가로 줄입니다.

모델을 셀프 호스팅하려는 개발 팀에게는 V4-Flash가 더 현실적인 선택입니다——130억 개의 활성 파라미터로 V3.2보다 표준적인 GPU 하드웨어에서 추론을 실행할 수 있습니다.

DeepSeek, V4-Pro와 V4-Flash 공개: 100만 토큰 컨텍스트 오픈소스 모델, SWE Verified 80.6점 달성

새로운 V4 아키텍처가 가져오는 것은?

실제 작업에서의 성능은?

에이전트 포스트 트레이닝은 어떻게 작동합니까?

DSec 샌드박스란 무엇입니까?

마이그레이션 기한은 언제입니까?

출처

관련 뉴스