🤖 모델

5 개 뉴스

🟡 🤖 모델 2026년 4월 14일 · 1 분 읽기

ArXiv: Process Reward Agents — 재훈련 없이 실시간 피드백으로 AI 의료 추론 개선

연구자들이 의료 분야에서 AI 추론 과정 중 단계별 실시간 피드백을 제공하는 새로운 접근법인 Process Reward Agents(PRA)를 발표했습니다. 이 시스템은 재훈련 없이 기존 모델과 함께 작동하며, 의료 벤치마크에서 유의미한 성과를 달성했습니다.

🟡 🤖 모델 2026년 4월 13일 · 1 분 읽기

ArXiv PRA: 4B 모델이 의료 벤치마크에서 80.8% 달성 — 소규모 모델의 새로운 SOTA

Process Reward Agents는 소규모 동결 모델(0.5B-8B)이 어떠한 훈련 없이도 의료 추론을 크게 향상시킬 수 있게 한다 — Qwen3-4B가 MedQA에서 80.8%의 새로운 최고 성능을 달성했다.

🟡 🤖 모델 2026년 4월 13일 · 1 분 읽기

ArXiv SPPO: 시퀀스 수준 PPO가 긴 추론 체인의 크레딧 할당 문제를 해결

Sequence-Level PPO는 LLM 추론을 컨텍스트 밴딧 문제로 재정의하여, 멀티 샘플링 없이 GRPO와 같은 비용이 많이 드는 그룹 방법의 성능을 극적으로 적은 리소스로 달성한다.

🟡 🤖 모델 2026년 4월 11일 · 2 분 읽기

ArXiv SUPERNOVA: 자연 명령에 대한 강화학습으로 추론 능력 52.8% 향상

새로운 논문 SUPERNOVA는 기존 명령어 튜닝 데이터셋의 체계적인 큐레이션이 LLM의 추론 능력을 크게 향상시킬 수 있음을 보여줍니다. SUPERNOVA로 훈련된 모델은 BBEH 벤치마크에서 최대 52.8%의 상대적 개선을 달성했습니다.

🟢 🤖 모델 2026년 4월 10일 · 2 분 읽기

Sentence Transformers v5.4, 멀티모달 임베딩 및 리랭커 모델 지원 추가

HuggingFace의 Sentence Transformers 라이브러리가 버전 5.4를 받아 멀티모달 임베딩 및 리랭커 모델을 도입했습니다. 사용자는 이제 텍스트, 이미지, 오디오, 비디오를 공통 임베딩 공간에 매핑하고 크로스 모달 유사성을 수행할 수 있습니다 — 서로 다른 유형의 콘텐츠 검색 통합입니다.