GPT OSS 모델은 ChatGPT나 GPT-4와 동일한가요?

아닙니다. GPT OSS는 OpenAI 인프라 외부 배포를 위한 OpenAI의 오픈 웨이트 모델입니다. gpt-oss-120b와 gpt-oss-20b는 GPT-4나 ChatGPT 모델과 동일하지 않습니다.

GovCloud의 운영자 제로 접근 설계는 무엇을 의미하나요?

AWS나 사용자, 모델 공급업체 누구도 GovCloud 리전의 Bedrock 추론 엔진을 통과하는 프롬프트나 응답에 접근할 수 없습니다.

bedrock-mantle 엔드포인트는 어떤 API 표준을 지원하나요?

Bedrock-mantle은 OpenAI Chat Completions 및 Responses API를 구현하므로, OpenAI Python 또는 TypeScript SDK용으로 작성된 코드가 엔드포인트 URL 변경만으로 수정 없이 동작합니다.

Nemotron과 GPT OSS, AWS GovCloud에서: FedRAMP High 인증

AWS GovCloud (US)가 Amazon Bedrock에 6개의 새 모델을 추가합니다. OpenAI의 오픈 웨이트 gpt-oss-120b와 gpt-oss-20b, 그리고 1M 토큰 컨텍스트를 갖춘 NVIDIA Nemotron 모델 4개입니다. 인프라는 운영자 제로 접근 설계와 함께 FedRAMP High, DoD IL 2/4/5, ITAR, CJIS 요건을 충족합니다.

Amazon Web Services가 AWS GovCloud (US) 리전의 Amazon Bedrock에서 제공하는 모델 목록을 6개의 새 모델로 확장했습니다. 소형 특화 모델부터 대형 범용 시스템까지 다양하며, 모두 미국 공공 부문이 요구하는 인프라 보장을 갖추고 있습니다.

어떤 모델이 제공되는가?

OpenAI GPT OSS 시리즈는 두 모델을 제공합니다. gpt-oss-120b는 프로덕션, 범용, 복잡한 추론 작업을 위한 1,200억 파라미터 모델로, 128K 토큰 컨텍스트 창과 최대 16K 토큰 출력을 제공합니다. gpt-oss-20b는 낮은 레이턴시와 특화 응용을 위해 최적화된 소형 버전입니다. 중요한 점은 이 모델들이 GPT-4나 ChatGPT가 아니라는 것입니다. 독립적인 배포를 위해 배포된 OpenAI의 오픈 웨이트 모델입니다.

NVIDIA Nemotron 시리즈는 4개의 모델을 제공합니다. Nemotron 3 Super 120B는 하이브리드 Mixture-of-Experts 아키텍처입니다. 총 1,200억 파라미터이지만 각 토큰에서 120억 파라미터만 활성화되어 모델 용량과 계산 효율성의 균형을 맞춥니다. 핵심 특성은 100만 토큰 컨텍스트 창으로, 컨텍스트를 자르지 않고 전체 법률 코퍼스, 기술 매뉴얼, 장기 대화 아카이브를 처리하는 에이전트가 가능합니다. Nano 변형(9B v2, 12B v2, 30B)은 경량 작업과 엣지 배포 시나리오를 커버합니다.

GovCloud가 다른 점

AWS GovCloud (US)는 단순히 물리적으로 분리된 리전이 아닙니다. 미국 공공 부문의 특정 규제 요건 세트를 충족하는 격리된 인프라입니다.

이 통합이 커버하는 인증 세트에는 클라우드 서비스에 대한 가장 높은 수준의 연방 인가인 임시 운영 권한(P-ATO)이 포함된 FedRAMP High, 통제된 기밀과 중요 국가 안보 시스템을 커버하는 DoD Cloud Security Requirements Guide Impact Level 2, 4, 5, 방위산업을 위한 ITAR(국제 무기 거래 규정), 법 집행 기관을 위한 CJIS(범죄 사법 정보 서비스)가 포함됩니다.

운영자 제로 접근

이러한 환경의 핵심 아키텍처 요건은 추론 요청의 보장된 프라이버시입니다. AWS의 운영자 제로 접근 설계는 추론 엔진이 프롬프트나 응답의 접근 가능한 흔적을 남기지 않음을 의미합니다. AWS 엔지니어, 고객, 모델 공급업체(OpenAI나 NVIDIA) 누구도 대화 내용을 재구성할 수 없습니다.

이 보장은 선택한 가격 등급이나 API 경로에 관계없이 적용됩니다.

이중 API

왜 두 가지 경로가 있는가?

GovCloud의 Bedrock은 각각 다른 트레이드오프를 가진 두 가지 모델 통신 방식을 제공합니다.

**bedrock-mantle**은 Chat Completions 및 Responses API를 구현하는 OpenAI 호환 HTTPS 엔드포인트입니다. OpenAI Python 또는 TypeScript SDK용으로 이미 작성된 코드가 수정 없이 동작하며, 유일한 변경은 엔드포인트 URL입니다. 도구 호출과 스트리밍이 지원되므로 OpenAI 생태계 위에 구축된 에이전트의 마이그레이션에 아키텍처 변경이 필요하지 않습니다.

**bedrock-runtime**은 Bedrock 특화 기능에 접근하는 네이티브 AWS SDK 경로입니다. 콘텐츠 필터링 및 보안 정책 적용을 위한 Guardrails, 공급업체에 관계없이 단일 호출로 모든 Bedrock 모델에 대한 인터페이스를 정규화하는 Converse API가 포함됩니다.

가격 등급과 데이터 레지던시

모델은 세 가지 등급으로 제공됩니다. Standard(온디맨드, 토큰당 요금), Priority(레이턴시 민감 트래픽용), Flex(낮은 비용의 배치 처리). Reserved 등급은 현재 GovCloud 리전에서 사용할 수 없습니다.

데이터 레지던시는 두 가지 옵션이 있습니다. In-Region 라우팅은 모든 요청을 us-gov-west-1 내에 유지합니다. Geo Cross-Region 라우팅은 가용성을 위해 us-gov-west-1과 us-gov-east-1 사이에서 라우팅할 수 있지만, 데이터가 GovCloud 경계를 절대 벗어나지 않는 AWS GovCloud 내에서만 이루어집니다.

공공 부문을 위한 맥락

FedRAMP High 환경에서 100만 토큰 컨텍스트 창을 갖춘 Nemotron 3 Super 120B 같은 모델의 가용성은 긴 문서의 법률 분석, 의료 기록, 보안에 민감한 애플리케이션에서의 장기 대화 메모리 같은 시나리오에 특히 관련이 있습니다. 이런 적용에서 기존의 컨텍스트 제한은 기술적 문제가 아니라 인증된 모델이 없어서 생긴 규제 장벽이었습니다.

NVIDIA Nemotron과 OpenAI GPT OSS 모델, FedRAMP High 인증과 함께 AWS GovCloud에서 가용