OpenAI: 推論と翻訳に対応した3つの新しいリアルタイム音声モデルをAPIに追加
OpenAIは2026年5月7日、APIに3つの新しいリアルタイム音声モデルを発表しました。GPT-Realtime-2はGPT-5クラスの推論と128,000トークンのコンテキストを備え、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのリアルタイム翻訳を実現し、GPT-Realtime-Whisperはライブ音声文字起こしを提供します。
10 件 — 🔴 5 重大 , 🟡 5 重要
OpenAIは2026年5月7日、APIに3つの新しいリアルタイム音声モデルを発表しました。GPT-Realtime-2はGPT-5クラスの推論と128,000トークンのコンテキストを備え、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのリアルタイム翻訳を実現し、GPT-Realtime-Whisperはライブ音声文字起こしを提供します。
Gemini 3.1 Flash-Liteは2026年5月7日よりGemini APIを通じて安定した本番エンドポイントとして一般提供(GA)されています。このモデルは速度、スケール、コスト効率に最適化されており、プレビュー版は2026年5月25日に終了します。
Google DeepMindは2026年5月、AlphaEvolveエージェントの初の産業影響レポートを発表し、Google Cloudを通じた商業利用を開始しました。KlarnaはTransformerモデルのトレーニング速度を2倍に向上させ、FM Logisticはルーティング効率を10.4%改善し、Schrödingerは分子シミュレーションを4倍高速化しました。
AWSはAmazon Bedrock AgentCore Paymentsをプレビューリリースしました。これはAIエージェントが自律的に決済を行うための最初のマネージドインフラです。オープンなx402 HTTPプロトコルとステーブルコインを使用し、CoinbaseおよびStripe(Privy経由)との提携により実現しており、予算制限とAgentCoreコンソールを通じた完全な監査が可能です。
研究者らは、5つの動的コンテキスト管理オペレーションを持つContext-ReActフレームワークを使用した長期検索エージェントLongSeekerを発表しました。このモデルはBrowseCompベンチマークで61.5%を達成し、Tongyi DeepResearchを18ポイント上回りました。
CNCFのベンチマークが、実際のKubernetesバグを修正するAIエージェント向けのRAG、ハイブリッド、純粋ローカル取得の3戦略を比較。RAGが最速(1分16秒)だが、主要ボトルネックは速度でもコストでもなく「スコープディスカバリー」——エージェントが複数ファイルにわたる影響コードを特定する能力——だった。
OpenAIはTrusted Access for Cyber(TAC)プログラムを数千人の確認済み防御的セキュリティ研究者と、重要なソフトウェアインフラを保護する数百のチームに拡大しました。プログラムでは制限が緩和されたGPT-5.5と、リバースエンジニアリングとマルウェア分析に特化したGPT-5.5-Cyberを導入しています。
ICML 2026に採択されたこの論文は、SQSD — ファインチューニング中の安全性劣化に対する個々のサンプルの寄与を定量化する手法を発表しています。研究者らは、一見無害なファインチューニングサンプルも累積的にパラメータを「危険アライン」方向にシフトさせることを示しました。