LLM의 예측 불가능성은 무엇이 유발합니까?

부동소수점 수의 유한 정밀도(예: float16, bfloat16)가 반올림 오류를 생성하고, 이는 트랜스포머의 레이어를 통과하면서 기하급수적으로 증폭될 수 있습니다.

이것은 프로덕션 AI 시스템에 어떤 영향을 미칩니까?

동일한 쿼리가 다른 하드웨어나 반복 실행 시 다른 답변을 줄 수 있으며, 이는 의료나 금융 같은 중요한 애플리케이션에서 신뢰성과 재현성을 위협합니다.

ArXiv: LLM의 수치 불안정성 — 부동소수점 오류가 트랜스포머에 혼돈을 만드는 방법

왜 같은 프롬프트가 다른 답변을 줄까?

대형 언어 모델 사용자라면 누구나 이 현상을 알고 있습니다. 같은 모델에 같은 질문을 하면 때로 다른 답변이 돌아옵니다. 이 동작의 일부는 의도적인 무작위성(온도 매개변수)으로 설명되지만, 연구자 Chashi Mahiul Islam, Alan Villarreal, Mao Nishino는 더 깊은 설명을 보여줍니다. 트랜스포머 아키텍처 자체에 내재된 수치 불안정성입니다.

부동소수점 연산 — 컴퓨터가 유한 정밀도로 소수를 표현하는 시스템 — 은 불가피하게 반올림 오류를 도입합니다. 그들의 연구는 이러한 오류가 트랜스포머 아키텍처의 레이어를 통과하면서 어떻게 ‘전파되고, 증폭되거나, 소멸하는지’를 추적합니다.

세 가지 동작 모드

이 연구는 트랜스포머의 초기 레이어에서 ‘눈사태 효과’를 확인하는데, 작은 섭동이 이진 결과를 낳습니다. 빠르게 증폭되거나 완전히 억제되거나 둘 중 하나입니다. 이는 세 가지 서로 다른 모드를 만들어냅니다.

안정 모드는 섭동이 입력에 의존하는 임계값 아래에 있을 때 나타납니다. 오류가 사라지고 모델은 일관된 출력을 냅니다. 혼돈 모드는 반올림 오류가 지배적이 되어 출력의 발산을 유발할 때 발생합니다. 신호 지배 모드는 입력의 실제 변동이 수치적 노이즈를 압도하는 경우입니다.

AI 산업에 대한 실질적인 영향

이러한 ‘보편적이고 스케일에 의존하는 혼돈 패턴’은 여러 데이터셋과 아키텍처에 걸쳐 나타나며, 이는 문제가 특정 모델이나 제조업체에 국한되지 않음을 의미합니다.

프로덕션 시스템에게 — 특히 LLM이 체인에서 결정을 내리는 에이전트형 워크플로우에 통합된 시스템에게 — 이것은 구체적인 결과를 가져옵니다. 같은 코드가 다른 하드웨어(GPU 대 TPU 대 CPU)에서 다른 출력을 생성할 수 있는데, 이는 설계 때문이 아니라 부동소수점 연산 구현 방식의 차이 때문입니다. 이는 의료나 금융 같은 규제 산업에서 AI 시스템의 재현성, 테스트, 인증을 위협합니다.

ArXiv: LLM의 수치 불안정성 — 부동소수점 오류가 트랜스포머에 혼돈을 만드는 방법

왜 같은 프롬프트가 다른 답변을 줄까?

세 가지 동작 모드

AI 산업에 대한 실질적인 영향

출처

관련 뉴스