🟡 🤖 Modeli Objavljeno: · 3 min čitanja ·

NVIDIA Nemotron i OpenAI GPT OSS modeli dostupni u AWS GovCloudu s FedRAMP High certifikatom

Editorial ilustracija: NVIDIA Nemotron i OpenAI gpt-oss modeli na AWS Bedrock GovCloud uz stroge sigurnosne certifikate

AWS GovCloud (US) dobiva šest novih modela na Amazon Bedrocku: OpenAI open-weight gpt-oss-120b i gpt-oss-20b te četiri NVIDIA Nemotron modela s 1M token kontekstom. Infrastruktura zadovoljava FedRAMP High, DoD IL 2/4/5, ITAR i CJIS zahtjeve uz dizajn nultog operaterskog pristupa.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Amazon Web Services proširio je ponudu modela na Amazon Bedrocku u regiji AWS GovCloud (US) s šest novih modela koja pokrivu raspon od malih specijaliziranih do velikih općenamjenskih sustava — sve uz infrastrukturne garancije koje zahtijeva američki javni sektor.

Koji su modeli dostupni?

OpenAI GPT OSS serija donosi dva modela. gpt-oss-120b je 120-milijardni parametarski model namijenjen produkcijskim, općenamjenskim i zahtjevnim razumskim zadacima, s kontekstnim prozorom od 128K tokena i izlazom do 16K tokena. gpt-oss-20b je kompaktnija varijanta optimizirana za nisku latenciju i specijalizirane primjene. Važno je naglasiti: ovi modeli nisu GPT-4 ni ChatGPT — radi se o OpenAI-evim open-weight modelima distribuiranim za neovisni deployment.

NVIDIA Nemotron serija donosi četiri modela. Nemotron 3 Super 120B je hibridni Mixture-of-Experts arhitektura: ukupno 120 milijardi parametara, ali pri svakom tokenu aktivira samo 12 milijardi — što balansira kapacitet modela s računalnom efikasnošću. Kritična karakteristika je 1-milijunski kontekstni prozor, koji otvara mogućnost agenata koji obrađuju cijele pravne korpuse, tehničke priručnike ili dugoročne razgovorne arhive bez rezanja konteksta. Nano varijante (9B v2, 12B v2, 30B) pokrivaju lake zadatke i edge deployment scenarije.

Po čemu se GovCloud razlikuje

AWS GovCloud (US) nije samo fizički odvojena regija — radi se o izoliranoj infrastrukturi koja zadovoljava specifičan skup regulatornih zahtjeva američkog javnog sektora.

Certifikacijski skup koji pokriva ova integracija uključuje: FedRAMP High s Provisional Authority to Operate (P-ATO), što je najviša razina federalne autorizacije za cloud usluge; DoD Cloud Security Requirements Guide Impact Levels 2, 4 i 5, koji pokrivaju kontrolirane tajne i kritične nacionalne sigurnosne sustave; ITAR (International Traffic in Arms Regulations) za obrambenu industriju; te CJIS (Criminal Justice Information Services) za agencije za provođenje zakona.

Nulti operaterski pristup

Središnji arhitekturni zahtjev za ovakva okruženja je garantirana privatnost inferencijalnih zahtjeva. AWS-ov dizajn nultog operaterskog pristupa znači da inference engine ne ostavlja pristupačne tragove promptova ni odgovora — nitko, uključujući AWS inženjere, kupca ni dobavljača modela (OpenAI ili NVIDIA), ne može rekonstruirati sadržaj razgovora.

Ova garancija vrijedi neovisno o odabranom cjenovnom razredu ili API putu.

Dvostruki API

Zašto postoje dva puta?

Bedrock u GovCloudu nudi dva načina komunikacije s modelima, svaki s drugačijim kompromisima.

bedrock-mantle je OpenAI-kompatibilni HTTPS endpoint koji implementira Chat Completions i Responses API. Kod koji je već pisan za OpenAI Python ili TypeScript SDK radi bez izmjena — jedina promjena je URL endpointa. Podržani su tool calling i streaming, što znači da migracija agenata izgrađenih na OpenAI ekosustavu ne zahtijeva arhitekturne promjene.

bedrock-runtime je nativni AWS SDK put koji daje pristup Bedrock-specifičnim funkcionalnostima: Guardrails za filtriranje sadržaja i primjenu sigurnosnih politika, te Converse API koji normalizira sučelje prema svim Bedrock modelima kroz jedinstveni poziv bez obzira na dobavljača.

Cjenovni razredi i rezidentnost podataka

Modeli su dostupni u tri razreda: Standard (on-demand, naplata po tokenu), Priority (za latencijski osjetljiv promet) i Flex (batch obrada uz niži trošak). Reserved razred trenutačno nije dostupan u GovCloud regijama.

Rezidentnost podataka ima dvije opcije. In-Region routing drži sve zahtjeve unutar us-gov-west-1. Geo Cross-Region routing može usmjeravati između us-gov-west-1 i us-gov-east-1 radi dostupnosti, ali isključivo unutar AWS GovCloud granice — podaci nikad ne napuštaju GovCloud perimetar.

Kontekst za javni sektor

Dostupnost modela poput Nemotron 3 Super 120B s milijunskim kontekstnim prozorom u FedRAMP High okruženju posebno je relevantna za scenarije poput pravne analize dugih dokumenata, medicinskih zapisa ili duge konverzacijske memorije u sigurnosno osjetljivim aplikacijama — primjene gdje dosadašnje ograničenje konteksta nije bio tehnički problem nego regulatorna prepreka zbog nedostupnosti certficiranih modela.

Česta pitanja

Jesu li GPT OSS modeli isti kao ChatGPT ili GPT-4?
Ne. GPT OSS su OpenAI-evi open-weight modeli namijenjeni deploymentu izvan OpenAI infrastrukture — gpt-oss-120b i gpt-oss-20b nisu identični GPT-4 niti ChatGPT modelima.
Što znači dizajn nultog operaterskog pristupa u GovCloudu?
Nitko — ni AWS, ni korisnik, ni dobavljač modela — ne može pristupiti promptovima ili odgovorima koji prolaze kroz Bedrock inference engine u GovCloud regiji.
Koji API standard podržava bedrock-mantle endpoint?
Bedrock-mantle implementira OpenAI Chat Completions i Responses API, što znači da kod pisan za OpenAI Python ili TypeScript SDK radi bez izmjena, samo s promjenom endpoint URL-a.