AdaMeZO: GPU 메모리에 모멘트를 저장하지 않고 Adam 방식으로 LLM 파인튜닝하는 새 최적화기
Adam의 장점과 MeZO의 메모리 효율을 결합한 제로 차수 최적화기
9 개 뉴스 — 🟡 6 주목 , 🟢 3 흥미
Adam의 장점과 MeZO의 메모리 효율을 결합한 제로 차수 최적화기
BWLA는 대규모 언어 모델의 훈련 후 양자화를 위한 새로운 프레임워크로, 정확도 손실 없이 처음으로 1비트 가중치 정밀도와 저비트 활성화를 동시에 달성했다. Qwen3-32B 모델에서 당혹도 11.92를 달성하고 기존 방법 대비 추론 속도 3.26배 향상을 이루었다.
1.5B~32B 파라미터 모델에서 RL 에이전트 탐색·활용 균형을 동적으로 조절하는 비지도 훈련 기법
학술 및 산업 연구소의 연구자 30명이 ICML 2026에 채택된 포지션 페이퍼를 발표하며, 에이전트 AI 시스템의 제어 계층이 베이즈 일관성을 준수해야 한다고 주장했다. 저자들은 LLM이 불확실성 하의 의사결정에 적합하지 않지만, 그 위의 오케스트레이터는 교정된 신념을 유지하고 유틸리티 인식 정책을 사용할 수 있어야 한다고 주장했다.
Max Planck Institute for Software Systems 등의 연구자들이 LLM 에이전트의 도구 호출 결정을 세 가지 차원(필요성, 효익, 비용 수용성)으로 평가하는 프레임워크를 발표했다. 6개 모델과 3개 작업에 대한 실험에서 모델이 필요하다고 판단하는 도구와 실제로 정확도를 높이는 도구 사이에 상당한 격차가 있음이 드러났으며, 이는 운영 에이전트의 비용과 신뢰성에 직접적인 영향을 미친다.
연구자들이 LLM 에이전트에서 도구를 호출하면 숨겨진 비용인 '도구 사용세'가 발생한다는 것을 증명했다. 호출 형식과 프로토콜 오버헤드로 인한 이 비용을 인수분해 개입 프레임워크로 세 가지 구성 요소로 분리하고, 모델 변경 없이 손실을 부분적으로 완화하는 G-STEP 게이트를 도입했다.
버지니아 공대 연구팀, 전쟁법·교전 규칙·합동 윤리 규정 기반으로 21개 LLM 평가한 벤치마크 공개
KAIST와 NAVER Cloud 팀이 Stable-GFlowNet(S-GFN)을 발표했다. 분배 함수 Z 추정을 제거하고 쌍별 비교로 안정적인 학습을 실현하는 LLM 자동화 레드팀 테스트의 새로운 접근법으로, ICML 2026 Spotlight—채택 논문의 5% 미만—를 획득했다. GFlowNet의 만성적 문제인 훈련 불안정성과 모드 붕괴를 해결했다.