OpenAI: GPT-5.5 Instant, 환각 감소와 함께 ChatGPT의 새 기본 모델로 지정
GPT-5.5 Instant는 OpenAI가 2026년 5월 5일 발표한 새로운 ChatGPT 기본 모델입니다. 더 스마트하고 정확한 답변, 환각 감소, 향상된 개인화를 제공하며, 동시에 시스템 카드도 공개되었습니다.
16 개 뉴스 — 🔴 2 중요 , 🟡 11 주목 , 🟢 3 흥미
GPT-5.5 Instant는 OpenAI가 2026년 5월 5일 발표한 새로운 ChatGPT 기본 모델입니다. 더 스마트하고 정확한 답변, 환각 감소, 향상된 개인화를 제공하며, 동시에 시스템 카드도 공개되었습니다.
EvoLM은 외부 감독을 제거하는 포스트 트레이닝 방법입니다——Qwen3-8B 루브릭 생성기는 RewardBench-2에서 GPT-4.1을 25.7% 앞서고 SkyWork-RM을 16% 초과하며, 훈련된 정책은 OLMo3-Adapt 벤치마크에서 69.3%를 달성합니다.
Google이 Gemini API의 File Search를 멀티모달 검색으로 확장하여 gemini-embedding-2 모델을 통해 이미지와 텍스트 문서의 기본 임베딩 및 검색을 가능하게 했습니다. 두 개의 새로운 grounding 필드와 Batch API를 위한 이벤트 기반 webhook 지원이 추가되었습니다.
Microsoft Research가 NSDI 2026에서 DroidSpeak를 발표했습니다. 이는 아키텍처가 동일한 미세 조정된 LLM 변형 간에 KV 캐시를 공유하는 시스템으로, 수십 개의 도메인 모델을 가진 엔터프라이즈 시나리오에서 최대 4배 더 높은 처리량을 달성하며 품질 저하는 최소화됩니다.
새로운 연구는 임상 LLM의 안전성이 정확도와 동일한 스케일링 법칙을 따르지 않음을 보여줍니다——RAG의 더 깨끗한 증거가 정확도를 73.5%에서 94.1%로 높이고, 고위험 오류를 12%에서 2.6%로 낮추는 효과가 모델 크기 증가보다 더 큽니다.
영국 AI 보안 연구소가 5월 5일 Microsoft와의 프론티어 AI 안전 파트너십을 발표했습니다. 협력은 세 가지 연구 분야를 포함합니다: 고위험 역량 평가, 보호 조치 테스트, 대화형 AI의 사회적 회복력 연구.
Anthropic이 pitchbook 생성기, KYC 심사기, 월말 결산 도구 등 10종의 금융 서비스용 에이전트 템플릿을 공개했습니다. 템플릿은 Claude Cowork와 Claude Code의 플러그인으로 제공되며, Claude Opus 4.7은 Vals AI Finance 벤치마크에서 64.37%를 달성했습니다.
MEMTIER는 장기 자율 에이전트를 위한 5계층 메모리 아키텍처입니다——LongMemEval-S 벤치마크에서 Qwen2.5-7B를 사용하면 정확도가 0.050에서 0.382로 상승하고 72시간 운영 후에도 도구 실행 성공률이 더 이상 하락하지 않습니다.
AWS가 5월 5일 Amazon Bedrock AgentCore Browser의 OS 수준 작업을 발표했습니다. 에이전트가 DOM 범위 밖에서 운영 체제의 기본 인터페이스와 상호 작용할 수 있게 합니다. 8개의 작업과 작업-스크린샷-반응 루프를 도입하며, 추가 설정 없이 사용 가능합니다.
DataClaw는 AI 에이전트가 탐색적 데이터 분석에서 어떻게 작업하는지 완전한 과정을 평가하는 새로운 벤치마크입니다. 최종 답변만이 아니라 잘못된 방법으로 올바른 결과에 도달하는 에이전트의 약점을 드러냅니다.
IBM은 Context Studio 출시로 Enterprise Advantage 플랫폼을 확장했습니다. 이는 디지털 주권을 보호하면서 조직 고유 데이터 기반으로 AI 에이전트를 구축하는 도구입니다. Providence Health는 채용 관리 시간을 90% 단축했으며, IBM은 18개월 내 운영 비용 25% 이상 절감을 예상합니다.
Anthropic이 Claude Code v2.1.131 핫픽스 릴리스를 공개했습니다. 하드코딩된 빌드 경로로 인한 Windows에서의 VS Code 확장 활성화 실패와 Mantle 추론 엔드포인트에 대한 x-api-key 헤더 누락 두 가지 버그를 수정합니다. 모든 주요 플랫폼용 바이너리가 게시되었습니다.