🤖 24 AI
🟡 🏥 실무 2026년 4월 17일 금요일 · 2 분 읽기

AWS Nova Micro를 활용한 Text-to-SQL: LoRA 파인튜닝 + 서버리스 Bedrock으로 월 0.80달러

왜 중요한가

AWS는 Amazon Nova Micro 모델의 LoRA 파인튜닝과 서버리스 Bedrock 온디맨드 추론을 결합하여 월 22,000건의 SQL 쿼리를 단 0.80달러로 처리할 수 있음을 시연했습니다. 훈련 비용은 Bedrock Customization으로 8달러, SageMaker로 65달러입니다. 이 접근 방식은 모델의 지속적인 호스팅 비용을 제거하고 변동하는 프로덕션 워크로드에 최적화되어 있습니다.

2026년 4월 16일, Amazon Web Services는 LoRA 파인튜닝과 Bedrock 온디맨드 추론을 사용하는 Nova Micro를 이용한 Text-to-SQL 시스템 구축에 관한 상세한 케이스 스터디를 발표했습니다. 저자 Zeek Granston과 Felipe Lopez는 두 가지 병렬 구현을 보여줍니다 — 하나는 Amazon Bedrock Customization을 통해, 다른 하나는 SageMaker AI를 통해 — 그리고 각 접근 방식에 대한 명확한 비용 계산을 제공합니다.

왜 LoRA + 서버리스인가

맞춤형 SQL 생성을 위한 전통적인 셀프 호스팅 접근 방식은 지속적인 인프라를 필요로 합니다 — 사용 여부에 관계없이 24/7 실행되는 GPU 인스턴스. SQL이 산발적으로 생성되는 내부 BI 도구의 경우 이는 엄청난 낭비입니다.

**저랭크 적응(LoRA)**은 베이스 모델 위에 작은 추가 파라미터 레이어만 파인튜닝할 수 있게 합니다. 서버리스 추론과 결합하면 토큰으로만 지불합니다 — 시스템이 유휴 상태일 때 고정 비용 없음. AWS는 이 접근 방식을 “지속적인 모델 호스팅 비용 없는 맞춤형 Text-to-SQL”이라고 설명합니다.

구체적인 비용

게시물은 AWS 기술 자료에서 드문 정밀한 경제 분석을 제공합니다:

일회성 훈련 비용:

  • Bedrock Customization: 8.00달러 (2,000개 예시, 5 에포크)
  • SageMaker AI: 65.15달러 (ml.g5.48xlarge에서의 4시간 작업)

월 22,000건 쿼리의 프로덕션 워크로드:

  • 입력 비용: 0.616달러
  • 출력 비용: 0.184달러
  • 월간 합계: 0.80달러

차이는 어떤 형태의 셀프 호스팅과 비교해도 극적입니다 — GPU 인스턴스만으로도 쿼리 수에 관계없이 월 수백 달러가 듭니다.

기술 하이퍼파라미터

저자들은 Bedrock을 통해 작동한 구체적인 구성을 공유합니다:

  • 에포크 수: 5
  • 학습률: 0.00001
  • 워밍업 스텝: 10
  • 훈련 기간: 2~3시간

훈련 데이터는 78,000개 이상의 자연어와 SQL 쿼리 쌍을 포함하는 공개 sql-create-context 데이터세트에서 가져왔습니다. 훈련 및 검증 손실 곡선은 일관되게 하락하고 수렴합니다 — 과적합 없는 안정적인 파인튜닝의 지표입니다.

지연 비용

무료 점심은 없습니다. LoRA 어댑터는 추론 시 오버헤드를 추가합니다:

  • 콜드 스타트 TTFT(첫 번째 토큰까지의 시간): 639ms (베이스 모델보다 34% 높음)
  • 웜 스타트 TTFT: 380ms (7% 높음)
  • 토큰 생성 속도: 초당 약 183토큰 (베이스 모델보다 27% 낮음)
  • 엔드투엔드 응답: 약 477ms

AWS는 이 지연을 “인터랙티브 애플리케이션에도 여전히 매우 적합하다”고 설명합니다 — 신중하게 해석해야 할 설명입니다. 사용자가 입력하는 동안 SQL이 생성되는 UI의 경우 추가 약 30%의 지연은 허용 가능합니다. 한 번에 수백 개의 쿼리를 생성하는 배치 프로세스의 경우 누적 오버헤드가 상당할 수 있습니다.

이 접근 방식을 언제 사용하는가

AWS는 명시적으로 비용이 절대적 속도보다 우선되는 변동 워크로드를 타겟으로 합니다. 일반적인 시나리오에는 기업의 내부 BI 도구, 레거시 데이터베이스용 채팅 어시스턴트, 지속적이 아닌 산발적으로 사용되는 분석 도구가 포함됩니다. 높고 예측 가능한 볼륨의 시스템의 경우 전용 호스팅이 여전히 경제적으로 유리합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.