🤖 모델

35 개 뉴스

🟡 🤖 모델 2026년 4월 27일 · 2 분 읽기

arXiv:2604.21764: 'Thinking with Reasoning Skills'가 ACL 2026 Industry Track에서 추론 토큰 감소와 정확도 향상 동시 달성

Guangxiang Zhao 등 연구팀이 2026년 4월 23일 ACL 2026 Industry Track에 채택된 논문 'Thinking with Reasoning Skills: Fewer Tokens, More Accuracy'를 발표했습니다. 이 접근법은 긴 chain-of-thought 추론에서 재사용 가능한 추론 스킬을 추출하여 새로운 문제에 대한 검색 기반 지름길로 활용하며, 코딩과 수학 작업에서 토큰 수를 줄이면서 정확도를 향상시킵니다.

🔴 🤖 모델 2026년 4월 24일 · 3 분 읽기

DeepSeek, V4-Pro와 V4-Flash 공개: 100만 토큰 컨텍스트 오픈소스 모델, SWE Verified 80.6점 달성

DeepSeek은 2026년 4월 24일 V4-Pro(1.6조/490억 활성 파라미터)와 V4-Flash(2840억/130억 활성 파라미터)를 공개했습니다. 100만 토큰 컨텍스트를 지원하는 두 오픈소스 모델로, V4-Pro는 SWE Verified에서 80.6점을 달성해 Opus 4.6에 근접하면서도 메모리 소비를 대폭 줄였습니다.

🔴 🤖 모델 2026년 4월 24일 · 3 분 읽기

OpenAI, GPT-5.5 발표：코딩·연구·복잡한 데이터 분석을 위한 가장 스마트한 도구형 모델

OpenAI가 2026년 4월 23일 GPT-5.5를 출시하며 지금까지 가장 스마트한 모델로 소개했습니다. 프로그래밍, 연구, 도구를 활용한 데이터 분석 등 복잡한 작업을 위해 설계되었습니다. 모델과 함께 System Card와 특별 바이오 버그 바운티 프로그램이 발표되었습니다.

🟡 🤖 모델 2026년 4월 24일 · 3 분 읽기

Thinking with Reasoning Skills (ACL 2026 Industry Track): 추론 스킬 검색으로 토큰 절감·정확도 향상

Zhao 등 연구팀이 ACL 2026 Industry Track에서 광범위한 탐색을 통해 재사용 가능한 추론 스킬을 증류하는 방법을 제안했습니다. 모델이 처음부터 생각하는 대신 관련 패턴을 검색해 추론 토큰 수를 줄이고 코딩·수학 작업의 정확도를 높입니다.

🟡 🤖 모델 2026년 4월 23일 · 2 분 읽기

Google, Gemini Embedding 2 정식 출시: 5가지 모달리티를 단일 임베딩 공간에 통합한 첫 멀티모달 임베딩 모델

Google은 텍스트, 이미지, 동영상, 오디오, PDF를 단일 임베딩 벡터 공간에 매핑하는 gemini-embedding-2 모델의 정식 출시(GA)를 발표했습니다. 이 모델은 2026년 3월 10일부터 미리보기로 제공되었으며, 이제 Gemini API를 통해 모든 사용자에게 제공됩니다.

🟡 🤖 모델 2026년 4월 23일 · 2 분 읽기

Microsoft AutoAdapt: 30분 4달러로 LLM을 전문 도메인에 자동 적응

Microsoft Research가 의료, 법률, 인시던트 대응 등 전문 도메인에 범용 언어 모델을 자동으로 적응시키는 AutoAdapt 프레임워크를 발표했습니다. 시스템은 RAG와 파인튜닝 사이에서 자율적으로 선택하고 하이퍼파라미터를 최적화하며 약 30분에 약 4달러의 추가 비용으로 작업을 완료합니다.

🟢 🤖 모델 2026년 4월 23일 · 2 분 읽기

애플, ICLR 2026에서 MANZANO 발표——이미지 이해와 생성의 트레이드오프를 해소하는 통합 멀티모달 모델

애플의 연구 그룹은 ICLR 2026 컨퍼런스에서 이미지 이해 능력과 이미지 생성 품질 사이의 오랜 트레이드오프를 해결하는 통합 멀티모달 프레임워크 MANZANO를 발표했습니다. 이 모델은 이해를 위한 연속 임베딩과 생성을 위한 이산 토큰을 생성하는 하이브리드 비전 토크나이저를 사용하며, 공유 인코더와 두 개의 특화 어댑터를 결합해 단일 모델이 두 작업을 동시에 수행할 때 발생하는 성능 손실을 줄입니다.

🟢 🤖 모델 2026년 4월 22일 · 2 분 읽기

MathNet: 47개국 30,676개 올림피아드 문제, 최신 모델도 여전히 뒤처져

편집 일러스트: 수학 기호와 47개국 지구본 조각이 있는 상호 연결된 노드

MIT 팀이 47개국 17개 언어에서 수집한 30,676개의 올림피아드 수학 문제가 있는 멀티모달 벤치마크 MathNet을 발표했습니다. Gemini-3.1-Pro는 78.4%, GPT-5는 69.3%를 달성하며, 임베딩 모델은 수학적으로 동일한 문제를 찾는 데 큰 어려움을 보입니다.

🟢 🤖 모델 2026년 4월 22일 · 2 분 읽기

xAI 음성-텍스트 변환 API 정식 출시: 25개 언어 지원으로 베타 졸업

에디토리얼 일러스트: 마이크와 음파 스트림이 Grok API를 통해 25개 언어의 전사본으로 변환된다

xAI가 음성-텍스트 변환(STT) API가 베타 단계에서 정식 출시(GA) 단계로 전환되었다고 발표했습니다. 이 서비스는 25개 언어를 지원하고 배치 및 스트리밍 모드를 제공하며 대기자 명단 없이 이용 가능합니다. 이전에 GA로 발표된 Grok Voice Agent API와 함께 완전한 음성 스택을 완성합니다.

🔴 🤖 모델 2026년 4월 21일 · 3 분 읽기

Claude Opus 4.7과 Haiku 4.5, Amazon Bedrock에서 정식 출시: 27개 리전 지원 및 엔터프라이즈 셀프서비스 액세스

Anthropic이 Claude Opus 4.7과 Haiku 4.5를 Amazon Bedrock 내 일반 제공(GA) 상태로 전환했습니다. 두 모델은 현재 27개 AWS 리전에서 대기 목록 없이 표준 Messages API 엔드포인트를 통해 이용 가능하며, 리전 라우팅과 글로벌 라우팅을 모두 지원합니다.

🟡 🤖 모델 2026년 4월 21일 · 3 분 읽기

Anthropic이 Claude Haiku 3 프로덕션 중단: 4월 20일부터 Haiku 4.5 마이그레이션 필수

Editorialna ilustracija: Anthropic povlači Claude Haiku 3 iz produkcije: migracija na Haiku 4.5 obavezna od 20. travnja

Anthropic은 2026년 4월 20일 Claude Haiku 3(모델 ID: claude-3-haiku-20240307)을 프로덕션에서 공식 중단했습니다. 이 모델에 대한 모든 API 호출은 오류를 반환합니다. 권장 마이그레이션 대상은 Claude Haiku 4.5이며, 이 조치는 2026년 2월에 발표된 지원 종료 주기의 일부입니다.

🟢 🤖 모델 2026년 4월 21일 · 3 분 읽기

왜 파인튜닝이 환각을 촉진하는가? 의미 표현 간의 간섭——해결책은 자가 증류 SFT

Editorialna ilustracija: Zašto fine-tuning potiče halucinacije? Interference među semantičkim reprezentacijama, a rješen

새로운 ArXiv 논문은 파인튜닝 후 환각 증가의 원인이 용량 부족도 행동 복제도 아니라 중첩되는 의미 표현 간의 간섭임을 밝힙니다. 해결책: 출력 분포 드리프트를 정규화하고 파인튜닝을 지속 학습 문제로 다루는 자가 증류 SFT.

🟡 🤖 모델 2026년 4월 19일 · 2 분 읽기

YAN：Mixture-of-Experts 플로우 매칭이 3번의 샘플링 단계로 자기회귀 언어 모델 대비 40배 속도 향상 달성

YAN은 Transformer와 Mamba 아키텍처를 Mixture-of-Experts 플로우 매칭 접근법과 결합한 새로운 생성 언어 모델입니다. 3번의 샘플링 단계만으로 자기회귀 모델과 비교 가능한 품질을 달성하며, AR 기준선 대비 40배, 확산 언어 모델 대비 최대 1000배의 속도 향상을 제공합니다. 전역 전송 기하학을 지역 특화 벡터 필드로 분해합니다.

🟢 🤖 모델 2026년 4월 19일 · 2 분 읽기

IG-Search：정보 이득을 보상으로 측정하여 검색 증강 추론을 향상, 계산 오버헤드 6.4%에 불과

IG-Search는 검색 증강 추론 AI 모델 훈련에 대한 새로운 접근법으로, 단계 수준 보상으로 정보 이득(Information Gain)을 사용합니다. 신호는 외부 어노테이션 없이 모델 자체의 생성 확률에서 도출되며, 이 방법을 적용한 Qwen2.5-3B는 7개 QA 벤치마크에서 평균 EM 점수 0.430을 달성합니다——MR-Search보다 1.6점, GiGPO보다 0.9점 높으며 계산 오버헤드는 단 6.4%입니다.

🟢 🤖 모델 2026년 4월 19일 · 3 분 읽기

LLM은 그래프에서 최단 경로를 학습할 수 있다——하지만 작업 지평선이 늘어나면 실패한다

새로운 arXiv 논문은 최단 경로 문제에서 LLM의 체계적 일반화를 두 가지 차원으로 조사합니다. 미지의 맵으로의 공간적 전이는 잘 작동하지만, 지평선 길이에 의한 스케일링은 재귀적 불안정성으로 인해 지속적으로 실패합니다. 결론은 자율 에이전트에 직접적인 시사점을 가집니다——훈련 데이터 커버리지가 능력 경계를 정의하고, RL은 안정성을 개선하지만 경계를 확장하지 않으며, 추론 시 스케일링은 도움이 되지만 길이 스케일링 문제를 해결하지 못합니다.

🟡 🤖 모델 2026년 4월 18일 · 3 분 읽기

AWS Nova 증류를 활용한 비디오 시맨틱 검색：95% 비용 절감, 추론 속도 2배 향상

AWS는 모델 증류가 대형 Nova Premier 모델의 지능을 비디오 검색 라우팅을 위한 소형 Nova Micro로 전달하는 방법을 시연했습니다. 결과는 추론 비용 95% 절감, 레이턴시 50% 감소(1741ms 대신 833ms), LLM-as-judge 평가에서 품질 유지(5점 만점에 4점)입니다. 전체 훈련에는 Nova Premier에서 생성된 10,000개의 합성 샘플이 사용되었습니다.

🟡 🤖 모델 2026년 4월 18일 · 3 분 읽기

AWS Nova 멀티모달 임베딩을 활용한 비디오 검색：하이브리드 접근법으로 리콜 51%에서 90%로

AWS Nova 멀티모달 임베딩은 텍스트로 변환하지 않고 비디오의 시각, 오디오, 텍스트 콘텐츠를 통합된 1024차원 벡터 공간에서 동시에 처리하는 새로운 아키텍처입니다. 시맨틱 임베딩과 BM25 어휘 검색의 결합은 Recall@5 90%를 달성했으며, 기준선 결합 모드 임베딩의 51%와 비교해——모든 지표에서 30~40퍼센트 포인트 향상되었습니다.

🟡 🤖 모델 2026년 4월 18일 · 3 분 읽기

NVIDIA Nemotron OCR v2：초당 34.7페이지, 단일 모델로 5개 언어, PaddleOCR보다 28배 빠름

NVIDIA가 HuggingFace에 Nemotron OCR v2를 공개했습니다. 이는 단일 A100 GPU에서 초당 34.7페이지를 처리하는 다국어 OCR 모델입니다. PaddleOCR v5보다 28배 빠릅니다. 모델은 단일 아키텍처에서 영어, 중국어, 일본어, 한국어, 러시아어를 지원하며 언어 감지가 필요하지 않습니다. 1,220만 개의 합성 이미지로 훈련되었으며, 모델과 데이터셋은 NVIDIA Open Model 라이선스와 CC-BY-4.0으로 제공됩니다.

🟢 🤖 모델 2026년 4월 18일 · 3 분 읽기

ArXiv AC/DC：모델과 태스크 공진화를 통한 전문화 LLM 자동 발견

AC/DC는 ICLR 2026에서 발표된 새로운 프레임워크로 모델 병합을 통해 LLM 모델을, 합성 데이터를 통해 태스크를 동시에 진화시킵니다. 발견된 모델 집단은 벤치마크를 명시적으로 최적화하지 않고도 수동으로 선별된 모델보다 광범위한 전문 지식 커버리지를 보여줍니다. 모델은 더 적은 GPU 메모리로 더 큰 동류 모델을 능가하며 LLM 지속 개발의 새로운 패러다임을 대표합니다.

🔴 🤖 모델 2026년 4월 17일 · 2 분 읽기

Anthropic: Claude Opus 4.7, 고해상도 비전·태스크 예산·새 토크나이저 도입 — Opus 4 은퇴

Claude Opus 4.7은 Anthropic의 새 플래그십 AI 모델로, Opus 4.6과 동일한 가격(입력 100만 토큰당 5달러, 출력 25달러)으로 출시됩니다. 최대 2576픽셀의 3배 향상된 이미지 해상도, 복잡한 에이전트 작업을 위한 새 노력 수준 xhigh, 긴 루프에서 모델이 자율적으로 리소스를 관리할 수 있는 태스크 예산, 그리고 완전히 새로운 토크나이저를 제공합니다.

🟡 🤖 모델 2026년 4월 17일 · 2 분 읽기

ArXiv: 등각 예측이 LLM 심사위원의 숨겨진 신뢰성 문제를 밝히다

「LLM 심사위원 신뢰성 진단」은 LLM-as-judge 시스템의 집계 신뢰성 지표가 심각한 인스턴스별 비일관성을 숨기고 있다는 것을 보여주는 새로운 연구입니다. 전이성 위반의 전체 비율은 0.8~4.1%이지만, 문서의 33~67%에는 최소 하나의 전이성 사이클이 있습니다. 이 방법은 이론적으로 보장된 적용 범위를 가진 등각 예측 집합에 의존합니다.

🟡 🤖 모델 2026년 4월 17일 · 2 분 읽기

ArXiv: LongCoT 벤치마크에서 GPT 5.2가 긴 chain-of-thought 추론에서 겨우 9.8% 달성

LongCoT는 다섯 개 도메인에 걸친 2,500개의 전문가 설계 문제를 포함한 새 벤치마크로, 수만에서 수십만 토큰이 필요할 수 있는 긴 chain-of-thought 추론 능력을 테스트합니다. 현재 프론티어 모델들은 GPT 5.2가 9.8%, Gemini 3 Pro가 6.1%에 그치며 크게 실패하여, 자율적 AI 에이전트 배포의 중요한 약점을 드러냈습니다.

🟡 🤖 모델 2026년 4월 17일 · 2 분 읽기

Google Research: AI가 합성 뉴런을 생성하여 뇌 매핑에서 157인년 절약

Google Research는 PointInfinity 포인트 클라우드 흐름 매칭 모델을 사용하는 MoGen 시스템을 개발했습니다. 전문가 평가에서 실제와 구분할 수 없는 합성 뉴런 형태를 생성합니다. 훈련에 합성 데이터를 10%만 추가해도 오류율이 4.4% 감소하며, 이는 완전한 마우스 뇌 매핑에서 157인년의 수작업에 해당하는 절약입니다.

🟡 🤖 모델 2026년 4월 17일 · 3 분 읽기

Google Simula: 샘플별 최적화가 아닌 메커니즘 설계로서의 데이터 합성

Simula는 합성 데이터 생성을 개별 샘플의 문제가 아닌 메커니즘 설계 문제로 다루는 Google의 프레임워크입니다. 시스템은 추론 모델을 사용하여 계층적 분류 체계를 구축하고 데이터 생성의 네 가지 독립적 축을 제어합니다. 이미 프로덕션에 배포되어 Gemini 안전 분류기, MedGemma, Android 사기 감지, Google Messages 스팸 필터링을 구동하고 있습니다.

🟡 🤖 모델 2026년 4월 17일 · 1 분 읽기

OpenAI: GPT-Rosalind — 생명과학에 특화된 최초의 프론티어 추론 모델

GPT-Rosalind는 약물 발견, 유전체 분석, 단백질 추론을 포함한 생물과학 연구에 특화된 OpenAI의 새 프론티어 추론 모델입니다. 사이버 보안을 위한 GPT-5.4-Cyber 이후 특화 AI 시스템 트렌드를 이어가며, OpenAI가 핵심 산업을 위한 수직 최적화 모델을 구축하는 전략적 결정을 나타냅니다.

🟡 🤖 모델 2026년 4월 16일 · 2 분 읽기

Google: Gemini 3.1 Flash TTS, 70개 이상의 언어에 표현력 있는 AI 음성 제공

Google이 Gemini 3.1 Flash TTS를 출시했습니다. 70개 이상의 언어를 지원하며 Artificial Analysis 순위에서 1,211의 Elo 점수를 달성한 새로운 텍스트 음성 변환 모델입니다. 핵심 혁신은 오디오 태그——음성, 억양, 감정을 정밀하게 제어하기 위해 텍스트에 자연어 명령을 직접 내장하는 기능입니다. 모델은 Google AI Studio, Vertex AI, Google Vids에서 이용 가능하며, AI 생성 음성 감지를 위한 SynthID 워터마킹을 지원합니다.

🟢 🤖 모델 2026년 4월 16일 · 2 분 읽기

ArXiv: LLM의 수치 불안정성 — 부동소수점 오류가 트랜스포머에 혼돈을 만드는 방법

새로운 연구가 부동소수점 연산의 반올림 오류가 트랜스포머 아키텍처의 레이어를 통해 혼돈을 어떻게 전파시키는지 엄격하게 분석합니다. 이 연구는 안정, 혼돈, 신호 지배의 세 가지 동작 모드를 확인하고, 수치 불안정성이 버그가 아니라 프로덕션 시스템에서 재현성을 위협하는 LLM의 근본적인 특성임을 증명합니다.

🔴 🤖 모델 2026년 4월 15일 · 1 분 읽기

Anthropic: Claude Sonnet 4와 Opus 4, 6월 15일 지원 종료

Anthropic이 기존 Claude Sonnet 4와 Claude Opus 4 모델의 지원 종료를 발표했습니다. 두 모델 모두 2026년 6월 15일에 API에서 제거됩니다. 개발팀은 가능한 빨리 4.6 버전으로 마이그레이션해야 합니다.

🟡 🤖 모델 2026년 4월 15일 · 2 분 읽기

ArXiv: 대규모 언어 모델의 유해한 응답을 담당하는 뉴런 발견

LLM 내부 메커니즘에 대한 인과 분석 결과, 유해한 콘텐츠는 모델의 후반 레이어에서 주로 MLP 블록을 통해 생성되는 것으로 밝혀졌습니다. 최종 레이어의 소수 뉴런 집합이 유해한 응답의 제어 메커니즘으로 작동합니다.

🟡 🤖 모델 2026년 4월 15일 · 1 분 읽기

Google: Gemini Robotics-ER 1.6, 계기 판독 및 공간 이해 능력 탑재

Google이 새로운 계기 판독 능력과 향상된 공간 및 물리적 이해 능력을 갖춘 Gemini Robotics-ER 1.6을 발표했습니다. 이전 버전 1.5는 4월 30일에 종료됩니다.

🟡 🤖 모델 2026년 4월 14일 · 1 분 읽기

ArXiv: Process Reward Agents — 재훈련 없이 실시간 피드백으로 AI 의료 추론 개선

연구자들이 의료 분야에서 AI 추론 과정 중 단계별 실시간 피드백을 제공하는 새로운 접근법인 Process Reward Agents(PRA)를 발표했습니다. 이 시스템은 재훈련 없이 기존 모델과 함께 작동하며, 의료 벤치마크에서 유의미한 성과를 달성했습니다.

🟡 🤖 모델 2026년 4월 13일 · 1 분 읽기

ArXiv PRA: 4B 모델이 의료 벤치마크에서 80.8% 달성 — 소규모 모델의 새로운 SOTA

Process Reward Agents는 소규모 동결 모델(0.5B-8B)이 어떠한 훈련 없이도 의료 추론을 크게 향상시킬 수 있게 한다 — Qwen3-4B가 MedQA에서 80.8%의 새로운 최고 성능을 달성했다.

🟡 🤖 모델 2026년 4월 13일 · 1 분 읽기

ArXiv SPPO: 시퀀스 수준 PPO가 긴 추론 체인의 크레딧 할당 문제를 해결

Sequence-Level PPO는 LLM 추론을 컨텍스트 밴딧 문제로 재정의하여, 멀티 샘플링 없이 GRPO와 같은 비용이 많이 드는 그룹 방법의 성능을 극적으로 적은 리소스로 달성한다.

🟡 🤖 모델 2026년 4월 11일 · 2 분 읽기

ArXiv SUPERNOVA: 자연 명령에 대한 강화학습으로 추론 능력 52.8% 향상

새로운 논문 SUPERNOVA는 기존 명령어 튜닝 데이터셋의 체계적인 큐레이션이 LLM의 추론 능력을 크게 향상시킬 수 있음을 보여줍니다. SUPERNOVA로 훈련된 모델은 BBEH 벤치마크에서 최대 52.8%의 상대적 개선을 달성했습니다.

🟢 🤖 모델 2026년 4월 10일 · 2 분 읽기

Sentence Transformers v5.4, 멀티모달 임베딩 및 리랭커 모델 지원 추가

HuggingFace의 Sentence Transformers 라이브러리가 버전 5.4를 받아 멀티모달 임베딩 및 리랭커 모델을 도입했습니다. 사용자는 이제 텍스트, 이미지, 오디오, 비디오를 공통 임베딩 공간에 매핑하고 크로스 모달 유사성을 수행할 수 있습니다 — 서로 다른 유형의 콘텐츠 검색 통합입니다.