AWS objavio kako graditi Strands Agente sa SageMaker AI modelima i MLflow observability: SageMakerAIModel provider, autolog tracing i A/B testiranje varijanti
AWS je objavio detaljan vodič o gradnji agenata pomoću Strands open-source SDK-a, SageMaker AI endpointa za hostanje modela i SageMaker AI Serverless MLflow-a za observability. Pristup nudi infrastrukturnu kontrolu, podršku za custom modele te automatizirano logiranje izvršnih tragova kroz mlflow.strands.autolog().
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
AWS Machine Learning Blog objavio je opsežan tehnički vodič o tome kako graditi AI agente koristeći tri komponente: open-source Strands Agents SDK, Amazon SageMaker AI endpointe za hostanje modela i SageMaker AI Serverless MLflow za observability. Vodič je relevantan za organizacije koje žele agente staviti u produkciju, ali iz operativnih ili regulatornih razloga ne mogu se osloniti isključivo na managed servise poput Amazon Bedrocka.
Što je Strands Agents
Strands Agents je “open source SDK that takes a model-driven approach to building and running AI agents in only a few lines of code”. Arhitekturalno, framework kombinira tri komponente:
- jezični model (LLM koji razmišlja),
- system prompt (definicija uloge i ponašanja),
- toolset (lista funkcija koje agent može pozvati).
Ovaj minimalistički obrazac sličan je drugim agentskim SDK-ovima (LangChain, AutoGen, CrewAI), ali je model-driven filozofija — agent prepušta odluke modelu umjesto da ih kodira u rigidne workflow-e — distinktivna karakteristika.
Zašto SageMaker umjesto Bedrocka
AWS u objavi eksplicitno navodi četiri razloga zašto bi organizacija birala self-managed SageMaker endpoint umjesto managed Bedrock servisa:
- Infrastrukturna kontrola — nad compute instancama, VPC mrežom i sigurnosnim postavkama;
- Fleksibilnost modela — custom modeli, fine-tuned varijante, open-source modeli koji nisu nužno u Bedrock katalogu;
- Predvidljivost troška — reserved instances i spot pricing daju operativni trošak nižeg coefficienta varijabilnosti;
- Napredni MLOps — model registry, A/B testiranje, version management.
Strands SDK uključuje SageMakerAIModel provider koji omogućuje agentima da koriste endpointe na kojima rade modeli kao npr. Qwen3 ili drugi open-source LLM-ovi.
MLflow kao observability sloj
Glavna vrijednost koju vodič dodaje je integracija s SageMaker AI Serverless MLflow:
- automatsko snimanje izvršnih tragova,
- obrasci korištenja alata (koji tool agent zove kada),
- decision workflows (koji put razmišljanja je vodio do konačne akcije).
Aktivacija je deklarativna — jedan poziv mlflow.strands.autolog() u kodu — bez potrebe za custom instrumentacijom. Time se postižu dvije važne stvari koje regulatorni okviri sve više traže:
- monitoring ponašanja agenata u produkciji,
- audit tragovi koji omogućuju retroaktivnu analizu odluka.
To je posebno relevantno u kontekstu EU AI Acta, čiji članak 12 zahtijeva automatsko logiranje, te članak 72 koji zahtijeva post-market monitoring.
Tijek implementacije: pet koraka
AWS u objavi opisuje petostruki workflow:
- deploy foundation modela kroz SageMaker JumpStart,
- kreiranje Strands agenata pomoću
SageMakerAIModels referencom na deployani endpoint, - omogućavanje automatskog logiranja kroz
mlflow.strands.autolog(), - deploy više varijanti modela za A/B testiranje paralelno,
- evaluacija agenata kroz MLflow GenAI evaluation framework s custom scorerima.
Korak 4 (A/B testiranje) je posebno koristan u kontekstu produkcijskog razvoja — umjesto rizičnih “big bang” migracija na nove modele, organizacije mogu postupno premještati promet na novu varijantu i mjeriti razlike u kvaliteti i trošku.
Primjeri korištenja koji su naglašeni
AWS preporučuje ovu arhitekturu za četiri tipa workload-a:
- konverzacijski AI s strogim latency zahtjevima — gdje shared managed servis ne daje dovoljno kontrole nad p99 latencijom,
- high-volume aplikacije koje zahtijevaju predvidljiv trošak — gdje per-token cijena managed servisa postaje dominantan trošak,
- compliance-osjetljivi deploymenti s zahtjevima rezidentnosti podataka — gdje treba precizna kontrola lokacije i šifriranja,
- model experimentation — sustavni A/B testovi prije pune migracije.
Praktične implikacije
Tri stvari koje vrijedi razmotriti za timove koji već koriste AWS:
- MLflow integracija je low-overhead i može se uvesti i u postojeće agentske implementacije bez velikog refactoringa;
- SageMakerAIModel provider otvara vrata domaćim ili regionalnim open-source modelima koji nisu u Bedrock katalogu, što je relevantno za europske organizacije koje žele kontrolirati rezidentnost;
- A/B testiranje agentskih varijanti zahtijeva više od samo deploya — potrebne su definirane metrike kvalitete (custom scorers) i strategije usmjeravanja prometa.
Vodič je tehnički gust i namijenjen praktičarima koji već imaju iskustvo s SageMakerom. Za timove koji počinju s agentima u AWS okruženju, on definira jednu od standardnih arhitektura — alternativa Bedrock managed servisu uz veću kontrolu ali i veću operativnu odgovornost.
Česta pitanja
- Što je Strands Agents?
- Strands Agents je open-source SDK koji koristi 'model-driven approach to building and running AI agents in only a few lines of code'. Framework kombinira jezični model, system prompt i toolset za izgradnju agenata sposobnih za kompleksne zadatke.
- Zašto bi netko koristio SageMaker umjesto Bedrocka?
- AWS u objavi navodi četiri razloga: kontrolu infrastrukture nad compute instancama i mrežom, fleksibilnost modela (custom, fine-tuned, open-source), predvidljivost troška kroz reserved instances i spot pricing, te napredne MLOps mogućnosti poput model registry i A/B testiranja.
- Što daje MLflow integracija?
- SageMaker AI Serverless MLflow automatski snima izvršne tragove, obrasce korištenja alata i decision workflow-e. Aktivira se pozivom mlflow.strands.autolog() i ne zahtijeva custom instrumentaciju. Omogućuje praćenje ponašanja agenata, identifikaciju uskih grla i održavanje audit tragova.
- Koje su tipične primjene ove arhitekture?
- AWS spominje četiri: konverzacijski AI s strogim latency zahtjevima, visoko-volumen aplikacije koje trebaju predvidljiv trošak, compliance-osjetljive deployment-e koji zahtijevaju kontrolu rezidentnosti podataka, te eksperimentiranje s modelima kroz A/B testiranje prije pune migracije.
Povezane vijesti
arXiv:2605.22502: Kompiliranjem agentskih workflowa u LLM težine postiže se near-frontier kvaliteta uz 100 puta nižu cijenu
arXiv:2605.22794: MOSS pokazuje agente koji se sami unapređuju mijenjajući vlastiti izvorni kod
arXiv:2605.22535: TerminalWorld benchmark mjeri LLM agente na stvarnim Linux terminal zadacima bez simulacije