Koja je razlika između Bedrock Customization i SageMaker za fine-tuning?

Bedrock Customization je managed servis koji minimizira infrastrukturnu brigu — trening košta 8 dolara za 2000 primjera. SageMaker daje granularu kontrolu nad hyperparametrima i instance tipovima — isti posao košta 65 dolara zbog ml.g5.48xlarge instance.

Koji je trade-off kod LoRA + serverless pristupa?

Latencija raste — cold start TTFT je 639 ms (34% iznad base modela), warm start je 380 ms (7% iznad). Token generiranje pada na 183 tokena u sekundi (27% pad). Zauzvrat nema fiksne infrastrukturne potrošnje.

Tko tipično koristi ovakav setup?

Kompanije s varijabilnim workloadom gdje bi self-hosted model stajao nikakav bez obzira na korištenje. LoRA + serverless idealan je za interne BI alate, unutrašnje chat asistente i povremeno korištene SQL interfejse.

AWS Nova Micro za Text-to-SQL: fine-tuning + serverless Bedrock za 0,80 dolara mjesečno

Amazon Web Services objavio je 16. travnja 2026. detaljni case study o gradnji text-to-SQL sustava koristeći Nova Micro s LoRA fine-tuningom i Bedrock on-demand inferenceom. Autori Zeek Granston i Felipe Lopez prikazuju dvije paralelne izvedbe — jednu kroz Amazon Bedrock Customization, drugu kroz SageMaker AI — i daju jasnu kalkulaciju troškova za svaki pristup.

Zašto LoRA + serverless?

Tradicionalni self-hosted pristup za custom SQL generaciju zahtijeva stalnu infrastrukturu — GPU instance koje rade 24/7 bez obzira na korištenje. Za interne BI alate gdje se SQL generira povremeno, to je masivan gubitak.

Low-Rank Adaptation (LoRA) omogućuje fine-tuning samo malog dodatnog sloja parametara povrh baznog modela. Kada se kombinira sa serverless inferenceom, plaćate samo po tokenima — bez fiksnih troškova kada sustav miruje. AWS ovaj pristup opisuje kao “custom text-to-SQL bez troškova kontinuiranog hostanja modela”.

Konkretni troškovi

Post donosi preciznu ekonomsku analizu koja je rijetkost u AWS tehničkim materijalima:

Jednokratni trošak treninga:

Bedrock Customization: 8,00 dolara (2.000 primjera, 5 epoha)
SageMaker AI: 65,15 dolara (4-satni posao na ml.g5.48xlarge)

Mjesečni produkcijski workload od 22.000 upita:

Input trošak: 0,616 dolara
Output trošak: 0,184 dolara
Ukupno mjesečno: 0,80 dolara

Razlika je dramatična u usporedbi s bilo kakvim self-hostanjem, gdje bi samo GPU instanca koštala nekoliko stotina dolara mjesečno bez obzira na broj upita.

Tehnički hyperparametri

Autori dijele konkretnu konfiguraciju koja je funkcionirala kroz Bedrock:

Broj epoha: 5
Learning rate: 0,00001
Warmup steps: 10
Trajanje treninga: 2-3 sata

Podaci za trening bili su iz javnog sql-create-context dataseta s više od 78.000 parova prirodnog jezika i SQL upita. Krivulje gubitka treninga i validacije konzistentno padaju i konvergiraju — indikator stabilnog fine-tuninga bez pretreniranosti.

Cijena latencije

Nema besplatnih ručaka. LoRA adapter dodaje overhead pri inferenceu:

Cold-start TTFT (time-to-first-token): 639 ms (34% iznad base modela)
Warm-start TTFT: 380 ms (7% iznad)
Token generation rate: ~183 tokena/sekundi (27% ispod base modela)
End-to-end response: ~477 ms

AWS tu latenciju opisuje kao “i dalje vrlo pogodnu za interaktivne aplikacije”, što je opis koji treba pažljivo interpretirati. Za korisničko sučelje gdje SQL se generira dok korisnik tipka, dodatnih 30-ak posto latencije je prihvatljivo. Za batch proces koji generira stotine upita odjednom, kumulativni overhead može biti znatan.

Kada koristiti ovakav pristup

AWS eksplicitno cilja varijabilne workloadove gdje je cijena prioritet nad apsolutnom brzinom. Tipični scenariji uključuju interne BI alate u poduzećima, chat asistente za nasljedne baze i analitičke alate koji se koriste povremeno umjesto kontinuirano. Za sustave s visokim i predvidljivim volumenom, dedicated hosting je i dalje ekonomičniji.