AWS Nova Micro za Text-to-SQL: fine-tuning + serverless Bedrock za 0,80 dolara mjesečno
Zašto je bitno
AWS je demonstrirao kako LoRA fine-tuning Amazon Nova Micro modela u kombinaciji sa serverless Bedrock on-demand inferenceom može pokriti 22000 SQL upita mjesečno za samo 0,80 dolara. Trening košta 8 dolara kroz Bedrock Customization ili 65 dolara kroz SageMaker. Pristup eliminira trošak kontinuiranog hostanja modela i kalibriran je za varijabilne produkcijske workloadove.
Amazon Web Services objavio je 16. travnja 2026. detaljni case study o gradnji text-to-SQL sustava koristeći Nova Micro s LoRA fine-tuningom i Bedrock on-demand inferenceom. Autori Zeek Granston i Felipe Lopez prikazuju dvije paralelne izvedbe — jednu kroz Amazon Bedrock Customization, drugu kroz SageMaker AI — i daju jasnu kalkulaciju troškova za svaki pristup.
Zašto LoRA + serverless?
Tradicionalni self-hosted pristup za custom SQL generaciju zahtijeva stalnu infrastrukturu — GPU instance koje rade 24/7 bez obzira na korištenje. Za interne BI alate gdje se SQL generira povremeno, to je masivan gubitak.
Low-Rank Adaptation (LoRA) omogućuje fine-tuning samo malog dodatnog sloja parametara povrh baznog modela. Kada se kombinira sa serverless inferenceom, plaćate samo po tokenima — bez fiksnih troškova kada sustav miruje. AWS ovaj pristup opisuje kao “custom text-to-SQL bez troškova kontinuiranog hostanja modela”.
Konkretni troškovi
Post donosi preciznu ekonomsku analizu koja je rijetkost u AWS tehničkim materijalima:
Jednokratni trošak treninga:
- Bedrock Customization: 8,00 dolara (2.000 primjera, 5 epoha)
- SageMaker AI: 65,15 dolara (4-satni posao na ml.g5.48xlarge)
Mjesečni produkcijski workload od 22.000 upita:
- Input trošak: 0,616 dolara
- Output trošak: 0,184 dolara
- Ukupno mjesečno: 0,80 dolara
Razlika je dramatična u usporedbi s bilo kakvim self-hostanjem, gdje bi samo GPU instanca koštala nekoliko stotina dolara mjesečno bez obzira na broj upita.
Tehnički hyperparametri
Autori dijele konkretnu konfiguraciju koja je funkcionirala kroz Bedrock:
- Broj epoha: 5
- Learning rate: 0,00001
- Warmup steps: 10
- Trajanje treninga: 2-3 sata
Podaci za trening bili su iz javnog sql-create-context dataseta s više od 78.000 parova prirodnog jezika i SQL upita. Krivulje gubitka treninga i validacije konzistentno padaju i konvergiraju — indikator stabilnog fine-tuninga bez pretreniranosti.
Cijena latencije
Nema besplatnih ručaka. LoRA adapter dodaje overhead pri inferenceu:
- Cold-start TTFT (time-to-first-token): 639 ms (34% iznad base modela)
- Warm-start TTFT: 380 ms (7% iznad)
- Token generation rate: ~183 tokena/sekundi (27% ispod base modela)
- End-to-end response: ~477 ms
AWS tu latenciju opisuje kao “i dalje vrlo pogodnu za interaktivne aplikacije”, što je opis koji treba pažljivo interpretirati. Za korisničko sučelje gdje SQL se generira dok korisnik tipka, dodatnih 30-ak posto latencije je prihvatljivo. Za batch proces koji generira stotine upita odjednom, kumulativni overhead može biti znatan.
Kada koristiti ovakav pristup
AWS eksplicitno cilja varijabilne workloadove gdje je cijena prioritet nad apsolutnom brzinom. Tipični scenariji uključuju interne BI alate u poduzećima, chat asistente za nasljedne baze i analitičke alate koji se koriste povremeno umjesto kontinuirano. Za sustave s visokim i predvidljivim volumenom, dedicated hosting je i dalje ekonomičniji.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic i NEC grade Japanovu najveću AI inženjersku radnu snagu — Claude za 30.000 NEC zaposlenika
AWS: multimodalni biološki foundation modeli ubrzavaju otkrivanje lijekova za 50 posto i dijagnostiku za 90 posto
CNCF: infrastrukturni inženjer migrirao 60+ Kubernetes resursa za 30 minuta uz pomoć AI agenta