🤖 모델

92 개 뉴스

🟡 🤖 모델 2026년 5월 22일 · 3 분 읽기

arXiv:2605.21006:기성 페르소나 벡터가 LLM 모델 표적 아첨 스티어링의 68-98% 효율 달성

편집 일러스트:2605.21006:기성 페르소나 벡터가 LLM 모델 표적 아첨 스티어링의 68-98% 효율 달성

연구자들은 2026년 5월 21일 arXiv에 '악마의 대변인 역할 수행'이라는 제목의 논문을 발표했다. 롤플레이 작업을 위해 개발된 기존 페르소나 벡터가 아첨 행동(사용자가 틀려도 동의하려는 모델 경향)을 전문화된 Contrastive Activation Addition(CAA) 방식의 68-98% 효율로 줄일 수 있음을 보여준다. 기하학적 분석은 아첨이 페르소나 수준의 속성이며 활성화 공간에서 단일한 유도 가능한 방향이 아님을 밝혀, 정렬(alignment)에 더 쉬운 경로를 열어준다.

🟢 🤖 모델 2026년 5월 22일 · 2 분 읽기

Black Forest Labs:FLUX Erase, 프롬프트 없는 객체 제거에서 GPT Image-2(68.5%)와 Finegrain(63.2%)을 능가

편집 일러스트:FLUX Erase, 프롬프트 없는 객체 제거에서 GPT Image-2(68.5%)와 Finegrain(63.2%)을 능가

Black Forest Labs는 2026년 5월 21일 이진 마스크만으로 이미지에서 객체·그림자·워터마크·텍스트를 제거하고 배경을 재구성하는 인페인팅 도구 FLUX Erase를 출시했다. 텍스트 프롬프트는 전혀 필요 없다. 198장 테스트 이미지 벤치마크에서 GPT Image-2(68.5%)와 Finegrain Eraser Standard(63.2%)를 능가했다. BFL API와 flux-tools.bfl.ai/erase 공개 데모로 제공되며, Black Forest Labs를 전문 크리에이티브 워크플로 도구 전문가로 자리매김한다.

🔴 🤖 모델 2026년 5월 21일 · 2 분 읽기

OpenAI: AI 모델이 이산기하학의 80년 된 추측을 반증하다

Editorial illustration: OpenAI AI 모델이 이산기하학의 80년 된 단위 거리 추측을 반증

OpenAI는 자사 AI 모델이 단위 거리 문제(unit distance problem)를 해결했다고 발표했습니다. 이 문제는 Paul Erdős가 1946년에 제시한 이래 80년 이상 미해결 상태였던 이산기하학의 핵심 추측입니다. 회사는 이 결과를 AI 주도 수학 연구의 이정표로 설명하며, 모델이 기존 명제를 검증한 것이 아니라 반례를 직접 구성하여 추측을 뒤집었다고 밝혔습니다.

🟢 🤖 모델 2026년 5월 21일 · 2 분 읽기

arXiv:2605.19762: ICML 2026 논문——코드가 LLM의 수학적 추론을 향상시키지 않는다고 주장

Editorial illustration: ICML 2026 논문이 구조화된 추론 신호가 순수 코드보다 LLM 수학적 추론에 더 효과적임을 증명

ICML 2026에 채택된 arXiv 프리프린트는 제어된 사전 학습 실험을 통해 실행 가능한 코드 자체가 LLM 모델의 전반적인 추론 능력을 향상시키지 않음을 보여줍니다. 코드는 프로그래밍을 크게 향상시키지만 표준 모드에서는 수학 작업과 경쟁 관계에 있습니다. 수학의 진정한 발전은 도메인 간 구조화된 추론 흔적(코드-텍스트와 수학-텍스트 혼합)에서 나오며, 전문가 혼합 모델의 메커니즘 분석이 전문가 활성화 패턴에서 이러한 상호작용을 밝혀냅니다.

🔴 🤖 모델 2026년 5월 20일 · 2 분 읽기

Google:Gemini 3.5 Flash와 Pro — 지금까지 가장 빠른 프론티어 모델

Editorial illustration: Google je na Google I/O 2026 predstavio Gemini 3.5 Flash i Pro — frontier modele koji su 4× brži od

Google은 Google I/O 2026에서 Gemini 3.5 Flash와 Pro를 발표했습니다 — 경쟁사보다 4배 빠른 프론티어 모델로, 에이전트 작업에 특별히 중점을 두고 개발자를 위한 새로운 Antigravity 2.0 플랫폼과 24시간 이용 가능한 개인 AI 에이전트 Gemini Spark를 강조합니다.

🔴 🤖 모델 2026년 5월 20일 · 3 분 읽기

Google:Gemini Omni Flash, 혼합 입력으로부터 네이티브 동영상 생성 제공

Editorial illustration: Google je na I/O 2026 predstavio Gemini Omni Flash — novi multimodalni model koji generira i uređuje

Google은 I/O 2026에서 Gemini Omni Flash를 발표했습니다 — 이미지, 오디오, 동영상, 텍스트의 조합에서 동영상을 생성하고 편집하는 새로운 멀티모달 모델입니다. YouTube Shorts에서 오늘부터 바로 이용 가능하며, 생성된 모든 클립에 SynthID 디지털 워터마크가 의무적으로 삽입됩니다.

🟡 🤖 모델 2026년 5월 20일 · 2 분 읽기

Google:ERA — 과학 코드 작성을 자동화하는 AI 시스템

Editorial illustration:

Google이 『Nature』지에 ERA(Empirical Research Assistance:실증 연구 지원)를 발표했습니다 — Gemini 기반 시스템으로 트리 탐색을 통해 수천 가지 계산 접근법을 평가하고 전문적인 과학 소프트웨어 작성을 자동화합니다. Computational Discovery 플랫폼은 Google Labs를 통해 연구자들에게 이미 공개되어 있습니다.

🟢 🤖 모델 2026년 5월 20일 · 2 분 읽기

arXiv:2605.19660:OScaR — INT2 KV 캐시 양자화로 3배 빠른 디코딩 실현

Editorial illustration: Istraživači su objavili OScaR, metodu koja rješava temeljni problem kvantizacije KV cachea u velikim

연구자들이 대형 언어 모델의 KV 캐시 양자화의 근본적인 문제를 해결하는 OScaR을 발표했습니다. 값당 2비트의 INT2 정밀도를 사용하면서도 거의 정확도 손실 없이 3배 빠른 디코딩, 5.3배 적은 메모리, BF16 FlashDecoding-v2 대비 4.1배 높은 처리량을 달성했습니다.

🔴 🤖 모델 2026년 5월 19일 · 3 분 읽기

arXiv:2605.15514: RoPE는 긴 컨텍스트에서 위치도 토큰도 구별할 수 없다――근본적 한계의 이론적 증명

Editorial illustration: arXiv 논문 2605.15514가 RoPE 위치 인코딩의 근본적 한계를 이론적으로 증명――긴 컨텍스트에서 위치와 토큰 구별 능력 상실

arXiv 논문 2605.15514는 Llama·Mistral·Qwen·GPT-NeoX를 포함한 거의 모든 현대 대형 언어 모델이 사용하는 Rotary Positional Embeddings(RoPE)가 긴 컨텍스트에서 위치와 토큰을 구별하는 능력을 잃는다는 것을 수학적으로 증명합니다. 저자들은 근본적으로 새로운 아키텍처 메커니즘이 필요하다고 결론짓습니다.

🟡 🤖 모델 2026년 5월 19일 · 2 분 읽기

Anthropic: Claude API 웹 검색 도구가 SEC 신고서에서 풍부한 구조화 데이터를 반환하도록 업데이트

Editorial illustration: Anthropic이 2026년 5월 18일 Claude API 웹 검색 도구를 업데이트해 SEC 신고서에서 풍부하고 구조화된 데이터를 반환하도록 개선

Anthropic은 2026년 5월 18일 Claude API의 웹 검색 도구를 업데이트해 10-K·10-Q·8-K 문서를 포함한 SEC 신고서에서 더 풍부하고 구조화된 데이터를 반환하도록 했습니다. 이번 업그레이드는 인용 참조가 포함된 1차 출처 기반의 수익 분석·실사·연구를 위한 금융 에이전트 구축을 용이하게 합니다.

🟢 🤖 모델 2026년 5월 19일 · 2 분 읽기

arXiv:2605.18732: 환각의 스케일링 법칙——더 큰 모델이 반드시 더 적은 오류를 의미하지는 않습니다

Editorial illustration: LLM 환각 스케일링 법칙 연구

연구자들이 38개 모델과 8900개 이상의 참고 문헌에서 LLM의 사실 회상이 시그모이드 곡선을 따른다는 것을 보여주었습니다: 파라미터 수와 훈련 데이터에서의 주제 출현 빈도의 조합이 분산의 60–94%를 설명합니다. 환각은 무작위가 아닙니다——예측 가능하고 측정 가능합니다.

🟡 🤖 모델 2026년 5월 18일 · 3 분 읽기

GitHub Copilot: GPT-5.3-Codex, Business 및 Enterprise 기본 모델로 전환, 12개월 LTS 보장

Editorial illustration: GitHub Copilot logo s GPT-5.3-Codex badge i LTS support stamp.

GitHub는 2026년 5월 17일 GPT-5.3-Codex가 GPT-4.1을 대체하여 Copilot Business 및 Enterprise의 기본 모델이 된다고 발표했습니다. 이 변경은 엔터프라이즈 티어에만 해당됩니다(Copilot Pro, Pro+, Free 제외). GPT-5.3-Codex는 최초의 LTS(장기 지원) 모델로, 2026년 2월 5일부터 2027년 2월 4일까지 12개월 가용성이 보장됩니다. 가격: 프리미엄 요청 배수 1×. GPT-4.1은 2026년 6월 1일 지원 중단 전까지 배수 0×(무료)로 강제 활성화 상태를 유지합니다.

🟡 🤖 모델 2026년 5월 16일 · 3 분 읽기

Black Forest Labs: FLUX Outpainting이 조명·질감·구도를 유지하면서 이미지를 모든 방향으로 확장합니다

Editorial illustration: 조명과 질감을 보존하면서 프레임 밖으로 확장되는 이미지.

FLUX Outpainting은 Black Forest Labs가 2026년 5월 14일에 출시한 새로운 이미지 생성 기능으로, 전용 확장 엔드포인트를 통해 이미지를 모든 방향으로 확장합니다. 사용자는 대상 캔버스 크기와 배치 좌표를 지정——모델은 텍스트 프롬프트 없이 확장 영역에 걸쳐 조명, 질감, 깊이, 구도를 보존합니다. 최대 4MP 출력, BFL API를 통해 이용 가능, 공개 데모는 flux-tools.bfl.ai/outpainting에서 확인할 수 있습니다.

🟡 🤖 모델 2026년 5월 15일 · 2 분 읽기

Amazon Nova 2 Sonic: 엔드투엔드 지연 500ms 미만·오디오 지연 30ms 미만의 음성 대 음성 기반 모델

편집 일러스트: 음성 파형과 엣지 네트워크 그래픽이 있는 음성 에이전트.

Amazon Nova 2 Sonic은 2026년 5월 14일 Amazon Bedrock을 통해 발표된 2세대 음성 대 음성 기반 모델입니다. 별도의 음성 인식 및 음성 합성 서비스의 필요성을 제거하며, 엔드투엔드 지연 500ms 미만, Stream 엣지 네트워크를 통한 오디오 지연 30ms 미만, 네이티브 턴 감지, 끼어들기 지원, 대화 중 함수 호출을 제공합니다. Stream Vision Agents 프레임워크가 양방향 오디오 스트림 관리를 추상화합니다.

🟡 🤖 모델 2026년 5월 15일 · 2 분 읽기

arXiv:2605.15177 OpenDeepThink: Bradley-Terry 집계 기반 병렬 추론으로 Gemini 3.1 Pro의 Codeforces Elo +405 향상

편집 일러스트: 페어와이즈 판정 기호와 Elo 등급이 있는 병렬 추론 분기 다이어그램.

OpenDeepThink는 Shang Zhou와 공동 연구자들이 2026년 5월 14일 arXiv에 발표한 새로운 집단 기반 테스트 시간 계산 스케일링 방법론입니다. 이 프레임워크는 포인트와이즈 LLM 판정 대신 페어와이즈 Bradley-Terry 비교를 통해 여러 추론 후보를 병렬로 샘플링하고 최선의 것을 선택합니다. 결과: Gemini 3.1 Pro가 8라운드의 순차적 LLM 호출(약 27분)을 통해 Codeforces 벤치마크에서 +405 Elo 향상을 달성했습니다. 팀은 또한 73개의 전문가 평가 Codeforces 문제가 담긴 CF-73 데이터셋을 공개했습니다.

🟡 🤖 모델 2026년 5월 14일 · 2 분 읽기

arXiv:2605.13301 SU-01:30B A3B 모델, 3단계 훈련으로 IMO 2025·USAMO 2026·IPhO에서 금메달 수준 달성

에디토리얼 일러스트: 수학 공식과 AI 추론 트리가 있는 메달 시상대.

SU-01은 2026년 5월 14일 arXiv에 공개된 새로운 추론 훈련 방법론입니다(Yafu Li 및 27명의 공저자, 교신저자 Runzhe Zhan). 30B 파라미터 A3B 백본이 340K 궤적에 대한 역 퍼플렉시티 커리큘럼 SFT, 2단계 RL, 테스트 시간 스케일링이라는 세 가지 연속 단계를 통해 IMO 2025, USAMO 2026, IPhO 2024-2025에서 금메달 수준의 성능을 달성합니다. 추론 체인은 100K+ 토큰에 달합니다.

🟢 🤖 모델 2026년 5월 14일 · 2 분 읽기

Allen Institute: AIMIP 벤치마크——AI 기후 모델은 과거 데이터에서 2배 우수하지만 장기적 온난화에는 일반화하지 못합니다

편집 일러스트: 과거 데이터와 비교된 AI 모델 라인이 있는 기후 시계열 그래프.

AIMIP(AI 모델 비교 프로젝트)는 2026년 5월 13일 Allen Institute가 NVIDIA, Google Research, 워싱턴 대학교, 메릴랜드 대학교, ArchesWeather 그룹과 함께 발표한 AI 기상 및 기후 모델을 위한 새로운 커뮤니티 벤치마크입니다. 8개의 AI 모델 시뮬레이션에 대한 1단계 평가는 과거 데이터에서 오류가 두 배 감소한다는 것을 보여주었지만, 동시에 장기적 온난화 추세에 대한 심각한 일반화 불능도 드러났습니다.

🟢 🤖 모델 2026년 5월 14일 · 2 분 읽기

Microsoft Research GridSFM: 파운데이션 모델이 AC 최적 조류 계산을 DC 근사보다 100배 빠르게 해결합니다

편집 일러스트: AI 파운데이션 모델과 최적화 그래프가 있는 전력망 네트워크.

GridSFM은 2026년 5월 13일 Microsoft Research가 발표한 전력망을 위한 새로운 소형 파운데이션 모델입니다. 500개에서 80,000개 노드의 전력망에서 AC 최적 조류 계산을 밀리초 단위로 근사하며, DC 근사보다 100배, 완전한 AC 솔버보다 1,000배 빠릅니다. 중앙값 비용 격차는 2.23%이며, 실행 가능성 감지는 94.5%/96.1%를 달성하고, 연간 200억 달러의 혼잡 비용 절감 가능성이 있습니다.

🟡 🤖 모델 2026년 5월 13일 · 1 분 읽기

Anthropic: Claude Opus 4.7 Fast Mode 리서치 프리뷰 출시——플래그십 모델의 고속 출력

에디토리얼 일러스트: 프리미엄 신호 아래 신경망 아키텍처를 통해 흐르는 고속 토큰 스트림.

Claude Opus 4.7 Fast Mode는 2026년 5월 12일에 출시된 Anthropic API의 새로운 리서치 프리뷰 기능으로, Anthropic의 가장 강력한 모델의 출력 토큰 생성 속도를 크게 높이지만 프리미엄 요금이 필요합니다. 개발자는 speed="fast" 파라미터, 모델 claude-opus-4-7, 베타 헤더 fast-mode-2026-02-01로 모드를 활성화합니다. 접근 권한, 속도 제한, 요금은 Opus 4.6 Fast Mode와 동일합니다.

🟢 🤖 모델 2026년 5월 13일 · 2 분 읽기

Microsoft Research: MatterSim이 152 W/m/K TaP를 실험 합성, MatterSim-MT가 PES 범위 너머로 확장

에디토리얼 일러스트: 열전도 시각화가 있는 결정 재료 구조.

MatterSim은 2026년 5월 12일에 결과가 발표된 재료과학을 위한 Microsoft Research의 새로운 기반 모델입니다. 모델은 실험적으로 합성되어 152 W/m/K(실리콘에 근접)로 측정된 정방정계 TaP를 예측했습니다. MatterSim-v1 추론이 3-5배 빨라졌으며, 새로운 MatterSim-MT 다중 작업 모델은 응력 텐서, 자기 모멘트, Born 유효 전하, 유전율 행렬을 추가합니다.

🟡 🤖 모델 2026년 5월 12일 · 2 분 읽기

vLLM: 오픈소스 추론 엔진이 Artificial Analysis 리더보드 1위를 차지하다

Editorial illustration: 오픈소스 추론 엔진이 Artificial Analysis 리더보드 1위를 차지하다

vLLM은 공격적인 커널 융합(레이어당 33→10 실행, 1.28× 속도 향상), 맞춤형 EAGLE3 드래프트 모델 투기적 디코딩, 선형 어텐션 경로 최적화를 통해 DeepSeek V3.2, MiniMax-M2.5, Qwen 3.5 397B 세 개의 프론티어 모델에서 Artificial Analysis 리더보드 1위를 차지한 오픈소스 추론 엔진입니다.

🟢 🤖 모델 2026년 5월 12일 · 2 분 읽기

arXiv:2605.07776: LLM 추론 트레이스의 불확실성 추적——첫 100 토큰으로 오류 예측 가능

Editorial illustration: 2605.07776: LLM 추론 트레이스의 불확실성 추적——첫 100 토큰으로 오류 예측 가능

arXiv:2605.07776 논문은 대형 언어 모델 추론 트레이스의 불확실성 추적을 연구합니다. 저자들(Grünefeld, Højer, Mondorf, Plank, Rogers 등)은 '불확실성 트레이스 프로필'을 개발했습니다——처음 몇 백 개의 토큰만으로도 AUROC 0.801을 달성하며, 5개 모델에서 AUROC 0.807로 정확한 결과를 예측하는 간결한 특성 집합입니다.

🟡 🤖 모델 2026년 5월 11일 · 2 분 읽기

arXiv:2605.06635:LLM 에이전트는 인용하지만 검증하지 않는다——링크 유효율 94% 이상, 정확도 39~77%

Editorial illustration: 2605.06635: LLM agenti citiraju ali ne verificiraju — link valid 94%+, točnost 39-77%

새로운 연구가 딥 리서치 작업에서 14개의 LLM 모델을 테스트하여 큰 격차를 발견했습니다. 링크 유효율은 94% 이상이지만, 인용의 사실 정확도는 39~77%에 불과합니다. 핵심 발견: 도구 호출 수가 2회에서 150회로 증가하면 인용 정확도가 42% 떨어지며, 『검색이 많을수록 품질이 좋아진다』는 가정을 무너뜨립니다.

🟡 🤖 모델 2026년 5월 11일 · 2 분 읽기

arXiv:2605.07990: LLM 도구 호출이 선형으로 표현됨——평균차 벡터가 77-100% 정확도로 도구 선택 변경

Editorial illustration: arXiv:2605.07990 LLM 도구 호출이 선형으로 표현됨——평균차 벡터가 77-100% 정확도로 도구 선택 변경

UCL, Holistic AI, 임페리얼 칼리지 연구자들이 LLM이 내부적으로 도구 선택을 선형으로 표현함을 발견했습니다. 평균차 벡터——두 도구의 평균 활성화 차이——를 활성화에 추가하면 12개 테스트 모델(2.7억~270억 파라미터)에서 파인튜닝 없이 77-100% 정확도로 도구 선택을 변경할 수 있습니다.

🟢 🤖 모델 2026년 5월 11일 · 2 분 읽기

arXiv:2605.06660:VHG——어려운 수학 문제 생성을 위한 검증기 지원 프레임워크

Editorial illustration: 2605.06660: VHG — verifier-backed framework za generiranje teških matematičkih zadataka

VHG(Verifier-backed Hard Problem Generation) 프레임워크는 LLM 훈련을 위한 유효하고 어렵고 독창적인 수학 문제를 만드는 난제를 해결합니다. 출제자-풀이자 이중성에 독립적인 검증기를 도입——삼자 자기 대국이 문제의 유효성과 난이도를 모두 보장합니다. 적분학에서 테스트했을 때 VHG는 모든 기준선 방법을 명확하게 능가했습니다.

🟢 🤖 모델 2026년 5월 11일 · 1 분 읽기

arXiv:2605.07925: LLM 가치 유도——긍정적 가치를 포함한 모든 가치관이 아첨 행동을 증가시킨다

Editorial illustration: arXiv:2605.07925 LLM 가치 유도——긍정적 포함한 모든 가치관이 아첨 행동 증가

가치 유도는 특정 가치관(helpfulness, harmlessness, honesty)을 강조하는 후훈련 기법입니다. ACL 2026 Findings의 연구는 긍정적 가치관 유도가 안전성을 향상시키지만 테스트된 모든 가치관이 의인화 언어를 증가시켜 강조되는 가치와 관계없이 모델을 더 「맞장구를 치고 아첨하는」 방향으로 만든다는 것을 보여줍니다.

🟡 🤖 모델 2026년 5월 9일 · 2 분 읽기

Allen Institute: EMO——데이터에서 자연스러운 의미적 모듈성을 갖춘 MoE 언어 모델

편집 일러스트: 전문가가 의미적 도메인별로 그룹화된 MoE 언어 모델 아키텍처 다이어그램

EMO는 Allen Institute의 새로운 MoE 언어 모델로, 10억 개의 활성 매개변수와 140억 개의 총 매개변수를 가지며 1조 개의 토큰으로 학습되었습니다. 전문가들이 의미적 도메인으로 자기 조직화되어 활성 전문가의 25%만 사용해도 성능 저하가 1%에 불과합니다.

🟡 🤖 모델 2026년 5월 9일 · 2 분 읽기

arXiv:2605.06638: ScaleLogic——RL 연산량은 추론 깊이의 거듭제곱 법칙을 따른다

편집 일러스트: 연산량과 추론 깊이를 연결하는 직선이 있는 로그-로그 스케일 그래프

ScaleLogic은 long-horizon 추론에 필요한 RL 연산량이 깊이의 거듭제곱 법칙을 따른다는 것을 보여주는 합성 프레임워크입니다: T ∝ D^γ (R² > 0.99). 지수 γ는 논리 표현력에 따라 1.04에서 2.60까지 변화하며, 더 표현력 있는 훈련은 다운스트림 벤치마크에서 최대 +10.66점의 향상을 가져옵니다.

🔴 🤖 모델 2026년 5월 8일 · 2 분 읽기

OpenAI: 추론 및 번역 기능을 갖춘 세 가지 새로운 실시간 음성 모델 API 출시

편집 일러스트: 추론 및 번역 기능을 갖춘 세 가지 새로운 실시간 음성 모델 API 출시

OpenAI는 2026년 5월 7일 API에 세 가지 새로운 실시간 음성 모델을 발표했습니다. GPT-Realtime-2는 GPT-5급 추론과 128,000 토큰 컨텍스트를 갖추고, GPT-Realtime-Translate는 70개 이상의 입력 언어에서 13개 출력 언어로 실시간 번역하며, GPT-Realtime-Whisper는 라이브 음성 전사를 제공합니다.

🟡 🤖 모델 2026년 5월 8일 · 2 분 읽기

Google: Gemini 3.1 Flash-Lite 일반 공급(GA) 전환

편집 일러스트: Gemini 3.1 Flash-Lite 일반 공급(GA) 전환

Gemini 3.1 Flash-Lite는 2026년 5월 7일부터 Gemini API를 통해 안정적인 프로덕션 엔드포인트로 일반 공급(GA)됩니다. 이 모델은 속도, 규모, 비용 효율성에 최적화되어 있으며, 미리보기 버전은 2026년 5월 25일에 종료됩니다.

🟡 🤖 모델 2026년 5월 7일 · 2 분 읽기

arXiv:2605.03195: Terminus-4B — 40억 파라미터 터미널 실행 모델이 SWE-Bench Pro에서 Claude Opus·GPT-5.3-Codex와 동등, 주 에이전트 토큰 약 30% 절감

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4B는 에이전트 시스템의 터미널 실행에 특화된 40억 파라미터의 Qwen3 파인튜닝 모델입니다. SWE-Bench Pro 벤치마크에서 Claude Sonnet/Opus 및 GPT-5.3-Codex 기준선과 동등하거나 이를 능가하며, 장황한 빌드/테스트 로그를 서브에이전트 컨텍스트에 격리함으로써 주 에이전트의 토큰 소비를 약 30% 줄입니다.

🟡 🤖 모델 2026년 5월 7일 · 2 분 읽기

arXiv:2605.04908: 큐레이션된 제약 데이터베이스를 가진 Gosset이 프런티어 LLM을 3.2배 능가

편집 일러스트: 큐레이션된 제약 데이터베이스를 가진 Gosset이 프런티어 LLM을 3.2배 능가

Gosset은 큐레이션된 제약 데이터를 갖춘 전문 AI 플랫폼으로, 네 개의 프런티어 시스템과의 비교에서 쿼리당 검증된 약물을 3.2배 더 많이 반환했으며, 열 개의 틈새 종양학·면역학 표적에서 100% 정밀도와 완전한 재현율을 달성했습니다.

🟡 🤖 모델 2026년 5월 7일 · 2 분 읽기

Google: Gemini API, 멀티모달 File Search 이미지 검색 및 Interactions API 주요 변경 도입

편집 일러스트: Gemini API, 멀티모달 File Search 및 Interactions API 주요 변경 도입

Google이 gemini-embedding-2 모델을 사용해 Gemini File Search를 멀티모달 이미지 검색으로 확장하고, 시각적 인용을 위해 기반 메타데이터에 media_id를 추가했습니다. 동시에 Interactions API의 주요 변경을 발표했습니다. outputs가 steps로 바뀌며, 새 기본값은 2026년 5월 20일부터, 구 스키마 제거는 2026년 6월 6일입니다.

🔴 🤖 모델 2026년 5월 6일 · 2 분 읽기

OpenAI: GPT-5.5 Instant, 환각 감소와 함께 ChatGPT의 새 기본 모델로 지정

편집 일러스트: 파란 배경의 ChatGPT 인터페이스에 GPT-5.5 Instant가 새 기본 모델로 표시됨

GPT-5.5 Instant는 OpenAI가 2026년 5월 5일 발표한 새로운 ChatGPT 기본 모델입니다. 더 스마트하고 정확한 답변, 환각 감소, 향상된 개인화를 제공하며, 동시에 시스템 카드도 공개되었습니다.

🟡 🤖 모델 2026년 5월 6일 · 2 분 읽기

arXiv:2605.03871: EvoLM — 외부 감독 없이 자가 개선하는 언어 모델

편집 일러스트: 외부 감독 없이 점수와 개선 사항을 교환하는 피드백 루프 내의 두 언어 모델

EvoLM은 외부 감독을 제거하는 포스트 트레이닝 방법입니다——Qwen3-8B 루브릭 생성기는 RewardBench-2에서 GPT-4.1을 25.7% 앞서고 SkyWork-RM을 16% 초과하며, 훈련된 정책은 OLMo3-Adapt 벤치마크에서 69.3%를 달성합니다.

🟡 🤖 모델 2026년 5월 6일 · 2 분 읽기

Google: Gemini API File Search, 이미지와 텍스트의 멀티모달 검색으로 확장

편집 일러스트: Gemini API가 임베딩 모델을 통해 이미지와 텍스트를 공통 의미론적 검색으로 결합합니다

Google이 Gemini API의 File Search를 멀티모달 검색으로 확장하여 gemini-embedding-2 모델을 통해 이미지와 텍스트 문서의 기본 임베딩 및 검색을 가능하게 했습니다. 두 개의 새로운 grounding 필드와 Batch API를 위한 이벤트 기반 webhook 지원이 추가되었습니다.

🟡 🤖 모델 2026년 5월 6일 · 2 분 읽기

Microsoft Research: DroidSpeak, 미세 조정된 LLM 변형 간 KV 캐시 공유로 4배 더 높은 처리량 달성

편집 일러스트: 데이터 센터에서 여러 미세 조정된 LLM 변형 간의 KV 캐시 공유 다이어그램

Microsoft Research가 NSDI 2026에서 DroidSpeak를 발표했습니다. 이는 아키텍처가 동일한 미세 조정된 LLM 변형 간에 KV 캐시를 공유하는 시스템으로, 수십 개의 도메인 모델을 가진 엔터프라이즈 시나리오에서 최대 4배 더 높은 처리량을 달성하며 품질 저하는 최소화됩니다.

🟡 🤖 모델 2026년 5월 5일 · 2 분 읽기

ArXiv AgentFloor:소형 오픈웨이트 모델(0.27B-32B)이 단기 에이전트 작업에 충분, GPT-5는 장기 계획에서만 우위

편집 일러스트: 다양한 크기의 모델이 다른 수준에 배치된 능력 사다리, 도구 사용 평가의 상징

Ranit Karmakar와 Jayita Chatterjee가 AgentFloor를 발표했습니다——6개 능력 수준으로 구성된 30개 작업의 결정론적 네트워크로, 0.27B에서 32B 범위의 16개 오픈웨이트 모델과 GPT-5를 평가했습니다. 결론: 소형 모델은 단기적이고 구조화된 에이전트 작업에 이미 충분하며, 프런티어 모델은 제약이 있는 장기 계획에서만 명확한 우위를 유지합니다.

🟡 🤖 모델 2026년 5월 5일 · 2 분 읽기

ArXiv Token Arena:에너지와 인지를 통합한 지속적 벤치마크, 엔드포인트 간 정답당 에너지 6.2배 차이 발견

편집 일러스트: AI 추론 엔드포인트의 에너지와 인지를 측정하는 저울, 다차원 벤치마크의 상징

Yuxuan Gao, Megan Wang, Yi Ling Yu가 2026년 5월 1일 Token Arena를 발표했습니다——엔드포인트 수준에서(78개 엔드포인트, 12개 모델 패밀리)AI 추론을 평가하는 지속적 벤치마크 플랫폼입니다. 같은 모델이 서로 다른 엔드포인트에서 수학/코드 벤치마크에서 최대 12.5점, 꼬리 지연에서 수십 배, 정답당 에너지에서 최대 6.2배 차이가 날 수 있음을 밝혔습니다. 플랫폼은 CC BY 4.0 라이선스로 결과를 공개합니다.

🟡 🤖 모델 2026년 5월 5일 · 2 분 읽기

NIST CAISI:DeepSeek V4 Pro, 지금까지 평가된 최강 중국 AI 모델이지만 미국 프런티어에 8개월 뒤처져

편집 일러스트: 8개월 격차를 표시하는 타임라인의 AI 모델, 독립 평가의 상징

미국 NIST 산하 인공지능 표준 및 혁신 센터(CAISI)가 2026년 5월 1일 DeepSeek V4 Pro 모델에 대한 독립 평가를 발표했습니다. 결론: 지금까지 평가된 PRC AI 모델 중 가장 뛰어나지만, 종합 능력에서 미국 프런티어보다 약 8개월 뒤처집니다. 평가는 사이버 보안, 소프트웨어 엔지니어링, 자연과학, 추상적 추론, 수학의 5개 영역에서 미공개 벤치마크를 사용하여 수행되었습니다.

🟢 🤖 모델 2026년 5월 5일 · 3 분 읽기

arXiv:2605.02572: 긴 호라이즌이 LLM 학습을 불안정하게 만든다 — ICML 2026 논문, '호라이즌 일반화'를 해결책으로 제시

편집 일러스트: 신경 노드와 데이터 흐름이 수렴하는 균열된 수평선

ICML 2026 채택 논문이 탐색 및 신용 할당 문제로 인해 과제 호라이즌 길이 증가가 심각한 LLM 학습 불안정을 유발한다는 것을 실증적으로 증명합니다. 제안된 해결책: 학습 시 호라이즌을 단축하고 추론 시 명시적인 '호라이즌 일반화' 메커니즘을 사용하는 방식입니다. 이 논문은 프론티어 모델 학습에서 과제 호라이즌 스케일링에 관한 최초의 실증적 규칙을 수립합니다.

🟢 🤖 모델 2026년 5월 4일 · 2 분 읽기

AdaMeZO: GPU 메모리에 모멘트를 저장하지 않고 Adam 방식으로 LLM 파인튜닝하는 새 최적화기

Editorial illustration: AdaMeZO: GPU 메모리에 모멘트를 저장하지 않고 Adam 방식으로 LLM을 파인튜닝하는 최적화기

Adam의 장점과 MeZO의 메모리 효율을 결합한 제로 차수 최적화기

🟢 🤖 모델 2026년 5월 4일 · 2 분 읽기

BWLA: 1비트 양자화 LLM으로 3.26배 가속 및 70% 향상 달성 (ACL 2026)

Editorial illustration: BWLA: 1비트 양자화 LLM으로 3.26배 가속 및 70% 향상 달성 (ACL 2026)

BWLA는 대규모 언어 모델의 훈련 후 양자화를 위한 새로운 프레임워크로, 정확도 손실 없이 처음으로 1비트 가중치 정밀도와 저비트 활성화를 동시에 달성했다. Qwen3-32B 모델에서 당혹도 11.92를 달성하고 기존 방법 대비 추론 속도 3.26배 향상을 이루었다.

🟡 🤖 모델 2026년 5월 2일 · 2 분 읽기

Latent-GRPO: 잠재 추론을 위한 안정적 RL 최적화 — GSM8K-Aug에서 7.86점, AIME에서 4.27점 향상, 추론 체인은 3-4배 단축

Editorial illustration: kompresija mreže rezoniranja u sažeti latentni prostor

연구진이 추론 단계를 연속 표현으로 압축하는 잠재 추론(latent reasoning)을 위한 안정화된 RL 접근법인 Latent-GRPO를 제시한다. 잠재 공간에서의 직접적인 GRPO에는 세 가지 근본 문제 — 무효 잠재 상태, 보상 신호와 토큰 업데이트 간 불일치, 무효 평균 상태 — 가 있음을 식별하고, 무효 샘플 어드밴티지 마스킹·단방향 노이즈 샘플링·최적 정답 경로 첫 토큰 선택의 조합으로 해결한다. 결과: GSM8K-Aug에서 Pass@1 +7.86, AIME에서 +4.27점, 추론 체인 3-4배 단축.

🟡 🤖 모델 2026년 5월 2일 · 2 분 읽기

GitHub, 2026년 6월 1일 Copilot에서 GPT-5.2 및 GPT-5.2-Codex 지원 종료——GPT-5.5 및 GPT-5.3-Codex로 마이그레이션

Editorial illustration: GitHub Copilot dashboard s novim modelom koji zamjenjuje stari

GitHub는 2026년 6월 1일을 기해 모든 Copilot 경험에서 GPT-5.2 및 GPT-5.2-Codex 모델을 지원 종료할 것이라고 발표했습니다. Chat, 인라인 편집, ask 및 agent 모드, 코드 완성 사용자는 GPT-5.5로 마이그레이션되며, Codex 사용자는 GPT-5.3-Codex로 이전됩니다. Copilot Code Review만 예외로, GPT-5.2-Codex는 계속 이용 가능합니다. 엔터프라이즈 관리자는 기한 전에 모델 정책에서 새 모델을 수동으로 활성화해야 합니다.

🟡 🤖 모델 2026년 5월 2일 · 2 분 읽기

NIST CAISI의 DeepSeek V4 Pro 평가: 5개 영역 9개 벤치마크에서 미국 프론티어 모델보다 8개월 뒤처짐

Editorial illustration: vaga koja uspoređuje AI modele iznad geopolitičke karte

NIST 산하 AI 표준 및 혁신 센터(CAISI)가 5개 영역의 9개 벤치마크(사이버보안, 소프트웨어 엔지니어링, 자연과학, 추상 추론, 수학)에 걸쳐 중국 모델 DeepSeek V4 Pro를 독립적으로 평가했습니다. 핵심 발견: V4는 미국 프론티어 모델보다 약 8개월 뒤처져 있으며, 특히 DeepSeek가 자체 기술 보고서에 포함하지 않은 추론 및 에이전트 작업에서 두드러집니다. 7개 테스트 중 5개에서 사용 비용이 GPT-5.4 mini보다 저렴했습니다.

🟢 🤖 모델 2026년 5월 2일 · 2 분 읽기

KellyBench: AI 에이전트가 Premier League 시즌 내내 베팅 자금을 관리——모든 주요 모델이 손실

Editorial illustration: nogometni stadion s digitalnom analizom kvota

KellyBench는 순차적 의사결정을 테스트하는 새로운 기준입니다: AI 에이전트가 통계, 선발 명단 및 시장 배당률을 활용하여 2023/24 시즌 전체 Premier League 동안 베팅 자금을 관리합니다. 테스트된 모든 주요 모델이 손실을 기록했으며, Claude Opus 4.6은 전문가 전략 정교도 루브릭에서 26.5%를 달성했습니다.

🔴 🤖 모델 2026년 5월 1일 · 2 분 읽기

PyTorch SMG: LLM 서빙에서 CPU와 GPU 분리로 Llama 3.3 70B FP8 출력 처리량 3.5배 달성, Google Cloud, Oracle, Alibaba에서 이미 프로덕션 운영 중

편집 일러스트: gRPC 네트워크로 GPU를 연결하는 독립적인 CPU 게이트웨이 레이어가 있는 서버 랙

LightSeek Foundation은 2026년 4월 30일 PyTorch 블로그에서 Shepherd Model Gateway(SMG)를 발표했습니다. 이는 CPU 바운드 작업(토크나이제이션, MCP 오케스트레이션, 채팅 기록, 멀티모달 전처리)을 GPU 프로세스에서 별도의 gRPC 레이어로 이전하는 Rust 게이트웨이입니다. Llama 3.3 70B FP8은 327 대비 1,150 출력 토큰/초(3.5배 처리량)를 달성하며, 솔루션은 이미 Google Cloud, Oracle Cloud, Alibaba Cloud, TogetherAI에서 프로덕션 운영 중입니다.

🟡 🤖 모델 2026년 5월 1일 · 2 분 읽기

2026년 봄 AstaBench: Claude Opus 4.7이 과학 AI 벤치마크에서 58%로 선두, GPT-5.5는 비용이 절반

편집 일러스트: 과학 작업에서 AI 모델 성능 그래프를 보여주는 리더보드 표, 중립적인 실험실 미학

Allen 연구소가 과학 AI 에이전트를 위한 2,400개 문제를 포함한 업데이트된 AstaBench 리더보드를 공개했습니다. Claude Opus 4.7이 58.0%로 선두를 달리고, GPT-5.5는 52.9%로 문제당 절반의 비용을 기록합니다. 핵심 발견: 특정 작업에서의 좋은 결과가 자동으로 견고한 엔드투엔드 과학적 연구 능력을 의미하지는 않습니다.

🟢 🤖 모델 2026년 5월 1일 · 1 분 읽기

Anthropic, Sonnet 4.5 및 Sonnet 4의 100만 컨텍스트 베타 종료 — 4.6으로 마이그레이션 필수

편집 일러스트: 두 API 버전 블록 사이의 마이그레이션 화살표, 미니멀리스트 기술적 미학

Anthropic은 2026년 4월 30일 Claude Sonnet 4.5와 Sonnet 4의 100만 토큰 컨텍스트 창 베타 헤더를 닫았습니다. 20만 토큰을 초과하는 요청은 이제 오류를 반환합니다. 사용자는 Sonnet 4.6 또는 Opus 4.6으로 마이그레이션해야 하며, 이 모델들에서는 베타 헤더 없이 100만 컨텍스트가 정식 기능으로 제공됩니다.

전체 아카이브 보기 →