Zašto bi netko koristio SageMaker umjesto Bedrocka?

AWS u objavi navodi četiri razloga: kontrolu infrastrukture nad compute instancama i mrežom, fleksibilnost modela (custom, fine-tuned, open-source), predvidljivost troška kroz reserved instances i spot pricing, te napredne MLOps mogućnosti poput model registry i A/B testiranja.

Što daje MLflow integracija?

SageMaker AI Serverless MLflow automatski snima izvršne tragove, obrasce korištenja alata i decision workflow-e. Aktivira se pozivom mlflow.strands.autolog() i ne zahtijeva custom instrumentaciju. Omogućuje praćenje ponašanja agenata, identifikaciju uskih grla i održavanje audit tragova.

Koje su tipične primjene ove arhitekture?

AWS spominje četiri: konverzacijski AI s strogim latency zahtjevima, visoko-volumen aplikacije koje trebaju predvidljiv trošak, compliance-osjetljive deployment-e koji zahtijevaju kontrolu rezidentnosti podataka, te eksperimentiranje s modelima kroz A/B testiranje prije pune migracije.

AWS Strands Agents + SageMaker + MLflow: vodič za agentsku arhitekturu

Q: Što je Strands Agents?

Strands Agents je open-source SDK koji koristi 'model-driven approach to building and running AI agents in only a few lines of code'. Framework kombinira jezični model, system prompt i toolset za izgradnju agenata sposobnih za kompleksne zadatke.

AWS Machine Learning Blog objavio je opsežan tehnički vodič o tome kako graditi AI agente koristeći tri komponente: open-source Strands Agents SDK, Amazon SageMaker AI endpointe za hostanje modela i SageMaker AI Serverless MLflow za observability. Vodič je relevantan za organizacije koje žele agente staviti u produkciju, ali iz operativnih ili regulatornih razloga ne mogu se osloniti isključivo na managed servise poput Amazon Bedrocka.

Što je Strands Agents

Strands Agents je “open source SDK that takes a model-driven approach to building and running AI agents in only a few lines of code”. Arhitekturalno, framework kombinira tri komponente:

jezični model (LLM koji razmišlja),
system prompt (definicija uloge i ponašanja),
toolset (lista funkcija koje agent može pozvati).

Ovaj minimalistički obrazac sličan je drugim agentskim SDK-ovima (LangChain, AutoGen, CrewAI), ali je model-driven filozofija — agent prepušta odluke modelu umjesto da ih kodira u rigidne workflow-e — distinktivna karakteristika.

Zašto SageMaker umjesto Bedrocka

AWS u objavi eksplicitno navodi četiri razloga zašto bi organizacija birala self-managed SageMaker endpoint umjesto managed Bedrock servisa:

Infrastrukturna kontrola — nad compute instancama, VPC mrežom i sigurnosnim postavkama;
Fleksibilnost modela — custom modeli, fine-tuned varijante, open-source modeli koji nisu nužno u Bedrock katalogu;
Predvidljivost troška — reserved instances i spot pricing daju operativni trošak nižeg coefficienta varijabilnosti;
Napredni MLOps — model registry, A/B testiranje, version management.

Strands SDK uključuje SageMakerAIModel provider koji omogućuje agentima da koriste endpointe na kojima rade modeli kao npr. Qwen3 ili drugi open-source LLM-ovi.

MLflow kao observability sloj

Glavna vrijednost koju vodič dodaje je integracija s SageMaker AI Serverless MLflow:

automatsko snimanje izvršnih tragova,
obrasci korištenja alata (koji tool agent zove kada),
decision workflows (koji put razmišljanja je vodio do konačne akcije).

Aktivacija je deklarativna — jedan poziv mlflow.strands.autolog() u kodu — bez potrebe za custom instrumentacijom. Time se postižu dvije važne stvari koje regulatorni okviri sve više traže:

monitoring ponašanja agenata u produkciji,
audit tragovi koji omogućuju retroaktivnu analizu odluka.

To je posebno relevantno u kontekstu EU AI Acta, čiji članak 12 zahtijeva automatsko logiranje, te članak 72 koji zahtijeva post-market monitoring.

Tijek implementacije: pet koraka

AWS u objavi opisuje petostruki workflow:

deploy foundation modela kroz SageMaker JumpStart,
kreiranje Strands agenata pomoću SageMakerAIModel s referencom na deployani endpoint,
omogućavanje automatskog logiranja kroz mlflow.strands.autolog(),
deploy više varijanti modela za A/B testiranje paralelno,
evaluacija agenata kroz MLflow GenAI evaluation framework s custom scorerima.

Korak 4 (A/B testiranje) je posebno koristan u kontekstu produkcijskog razvoja — umjesto rizičnih “big bang” migracija na nove modele, organizacije mogu postupno premještati promet na novu varijantu i mjeriti razlike u kvaliteti i trošku.

Primjeri korištenja koji su naglašeni

AWS preporučuje ovu arhitekturu za četiri tipa workload-a:

konverzacijski AI s strogim latency zahtjevima — gdje shared managed servis ne daje dovoljno kontrole nad p99 latencijom,
high-volume aplikacije koje zahtijevaju predvidljiv trošak — gdje per-token cijena managed servisa postaje dominantan trošak,
compliance-osjetljivi deploymenti s zahtjevima rezidentnosti podataka — gdje treba precizna kontrola lokacije i šifriranja,
model experimentation — sustavni A/B testovi prije pune migracije.

Praktične implikacije

Tri stvari koje vrijedi razmotriti za timove koji već koriste AWS:

MLflow integracija je low-overhead i može se uvesti i u postojeće agentske implementacije bez velikog refactoringa;
SageMakerAIModel provider otvara vrata domaćim ili regionalnim open-source modelima koji nisu u Bedrock katalogu, što je relevantno za europske organizacije koje žele kontrolirati rezidentnost;
A/B testiranje agentskih varijanti zahtijeva više od samo deploya — potrebne su definirane metrike kvalitete (custom scorers) i strategije usmjeravanja prometa.

Vodič je tehnički gust i namijenjen praktičarima koji već imaju iskustvo s SageMakerom. Za timove koji počinju s agentima u AWS okruženju, on definira jednu od standardnih arhitektura — alternativa Bedrock managed servisu uz veću kontrolu ali i veću operativnu odgovornost.

AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti