2026년 5월 4일 월요일

9 개 뉴스 — 🟡 6 주목 , 🟢 3 흥미

← 전날 다음 날 →

🤖 모델 (2)

🟢 🤖 모델 2026년 5월 4일 · 2 분 읽기

AdaMeZO: GPU 메모리에 모멘트를 저장하지 않고 Adam 방식으로 LLM 파인튜닝하는 새 최적화기

Editorial illustration: AdaMeZO: GPU 메모리에 모멘트를 저장하지 않고 Adam 방식으로 LLM을 파인튜닝하는 최적화기

Adam의 장점과 MeZO의 메모리 효율을 결합한 제로 차수 최적화기

🟢 🤖 모델 2026년 5월 4일 · 2 분 읽기

BWLA: 1비트 양자화 LLM으로 3.26배 가속 및 70% 향상 달성 (ACL 2026)

BWLA는 대규모 언어 모델의 훈련 후 양자화를 위한 새로운 프레임워크로, 정확도 손실 없이 처음으로 1비트 가중치 정밀도와 저비트 활성화를 동시에 달성했다. Qwen3-32B 모델에서 당혹도 11.92를 달성하고 기존 방법 대비 추론 속도 3.26배 향상을 이루었다.

🤝 에이전트 (4)

🟡 🤝 에이전트 2026년 5월 4일 · 2 분 읽기

ArXiv AEM: 멀티턴 RL 에이전트를 위한 적응형 엔트로피 변조, SWE-bench Verified에서 +1.4% 향상

1.5B~32B 파라미터 모델에서 RL 에이전트 탐색·활용 균형을 동적으로 조절하는 비지도 훈련 기법

🟡 🤝 에이전트 2026년 5월 4일 · 2 분 읽기

ICML 2026 포지션 페이퍼: 저자 30명, 에이전트 AI 오케스트레이션은 베이즈 일관성을 가져야 한다

학술 및 산업 연구소의 연구자 30명이 ICML 2026에 채택된 포지션 페이퍼를 발표하며, 에이전트 AI 시스템의 제어 계층이 베이즈 일관성을 준수해야 한다고 주장했다. 저자들은 LLM이 불확실성 하의 의사결정에 적합하지 않지만, 그 위의 오케스트레이터는 교정된 신념을 유지하고 유틸리티 인식 정책을 사용할 수 있어야 한다고 주장했다.

🟡 🤝 에이전트 2026년 5월 4일 · 2 분 읽기

ArXiv 프레임워크 '호출할 것인가 말 것인가': LLM이 외부 도구 필요성을 잘못 판단한다는 것을 밝혀

Editorial illustration: ArXiv 프레임워크 '호출할 것인가 말 것인가': LLM의 외부 도구 필요성 오판을 밝혀

Max Planck Institute for Software Systems 등의 연구자들이 LLM 에이전트의 도구 호출 결정을 세 가지 차원(필요성, 효익, 비용 수용성)으로 평가하는 프레임워크를 발표했다. 6개 모델과 3개 작업에 대한 실험에서 모델이 필요하다고 판단하는 도구와 실제로 정확도를 높이는 도구 사이에 상당한 격차가 있음이 드러났으며, 이는 운영 에이전트의 비용과 신뢰성에 직접적인 영향을 미친다.

🟢 🤝 에이전트 2026년 5월 4일 · 2 분 읽기

ArXiv: LLM 에이전트 도구의 숨겨진 비용 - '도구 사용세'는 도구가 도움이 될 때도 정확도를 낮춘다

연구자들이 LLM 에이전트에서 도구를 호출하면 숨겨진 비용인 '도구 사용세'가 발생한다는 것을 증명했다. 호출 형식과 프로토콜 오버헤드로 인한 이 비용을 인수분해 개입 프레임워크로 세 가지 구성 요소로 분리하고, 모델 변경 없이 손실을 부분적으로 완화하는 G-STEP 게이트를 도입했다.

🏥 실무 (1)

🟡 🏥 실무 2026년 5월 4일 · 2 분 읽기

IBM 연구: 조직의 76%가 최고AI책임자를 보유, CEO들은 2030년까지 AI가 운영 결정의 48%를 자율적으로 내릴 것으로 예상

Editorial illustration: IBM 연구: 조직의 76%가 최고AI책임자를 보유, CEO들은 2030년까지 AI가 운영 결정의 48%를 자율 결정할 것으로 예상

IBM 기업가치연구원이 33개국 2,000명의 CEO를 대상으로 한 연구 결과를 발표했다. 최고AI책임자(CAIO) 직위가 1년 만에 조직의 26%에서 76%로 확대되었으며, CEO들은 2030년까지 AI 시스템이 인간 개입 없이 운영 결정의 48%를 내릴 것으로 예상해 C-Suite 전체 구조가 재정의되고 있다.

🛡️ 보안 (2)

🟡 🛡️ 보안 2026년 5월 4일 · 2 분 읽기

ArXiv ARMOR 2025: 519개 프롬프트로 21개 상용 LLM의 군사 안전성을 평가한 최초의 군사 벤치마크

Editorial illustration: ArXiv ARMOR 2025: 519개 프롬프트로 21개 상용 LLM의 군사 안전성을 평가한 최초 군사 벤치마크

버지니아 공대 연구팀, 전쟁법·교전 규칙·합동 윤리 규정 기반으로 21개 LLM 평가한 벤치마크 공개

🟡 🛡️ 보안 2026년 5월 4일 · 2 분 읽기

ICML 2026 Spotlight: Stable-GFlowNet, 더 안정적이고 다양한 LLM 자동화 레드팀 테스트 도입

KAIST와 NAVER Cloud 팀이 Stable-GFlowNet(S-GFN)을 발표했다. 분배 함수 Z 추정을 제거하고 쌍별 비교로 안정적인 학습을 실현하는 LLM 자동화 레드팀 테스트의 새로운 접근법으로, ICML 2026 Spotlight—채택 논문의 5% 미만—를 획득했다. GFlowNet의 만성적 문제인 훈련 불안정성과 모드 붕괴를 해결했다.

← 전날 다음 날 →