🤖 モデル

92 件

🟡 🤖 モデル 2026年5月22日 · 4 分で読めます

arXiv:2605.21006:既製ペルソナベクトルがLLMモデルの的を絞った追従ステアリングの68-98%の効果を達成

編集イラスト:2605.21006:既製ペルソナベクトルがLLMモデルの的を絞った追従ステアリングの68-98%の効果を達成

研究者たちは2026年5月21日、arXivに「悪魔の代弁者を演じる」と題する論文を発表した。ロールプレイ用に開発された既製ペルソナベクトルが、追従性(ユーザーが誤っていても同意しようとするモデルの傾向)を専門化されたContrastive Activation Addition(CAA)手法の68-98%の効率で低減できることを示している。追従性はペルソナレベルの属性であり、活性化空間内の単一の誘導可能な方向ではないという幾何学的分析はアライメントへのより容易な経路を開く。

🟢 🤖 モデル 2026年5月22日 · 3 分で読めます

Black Forest Labs:FLUX Eraseがプロンプトなしの物体削除でGPT Image-2(68.5%)とFinegrain(63.2%)を上回る

編集イラスト:FLUX Eraseがプロンプトなし物体削除でGPT Image-2(68.5%)とFinegrain(63.2%)を超える

Black Forest Labsは2026年5月21日、バイナリマスクだけで画像から物体・影・透かし・テキストを削除し背景を再構成するインペインティングツールFLUX Eraseをローンチした。テキストプロンプトは一切不要だ。198枚のテスト画像によるベンチマークでGPT Image-2(68.5%)とFinegrain Eraser Standard(63.2%)を上回る優位性を示した。BFL APIとflux-tools.bfl.ai/eraseの公開デモで利用可能で、Black Forest LabsをプロCreativeワークフローツールのスペシャリストとして位置づける。

🔴 🤖 モデル 2026年5月21日 · 2 分で読めます

OpenAI:AIモデルが80年来の離散幾何学の予想を反証

Editorial illustration: OpenAI AIモデルが離散幾何学の80年来の単位距離予想を反証

OpenAIは、AIモデルが単位距離問題を解決したと発表しました。この問題はPaul Erdősが1946年に提唱して以来80年以上にわたり未解決だった離散幾何学の核心的予想です。同社はこの結果をAI主導の数学研究における画期的な成果と位置づけており、モデルは既存の命題を検証するだけでなく、反例の構成によって予想そのものを覆しました。

🟢 🤖 モデル 2026年5月21日 · 2 分で読めます

arXiv:2605.19762: ICML 2026論文——コードはLLMの数学的推論を改善しないと主張

Editorial illustration: ICML 2026論文が構造化推論シグナルが純粋なコードを上回ることを証明、LLM数学推論に新知見

ICML 2026に採択されたarXivプレプリントは、制御された事前学習実験を通じて、実行可能なコード自体はLLMモデルの全般的な推論能力を改善しないことを示しています。コードはプログラミングを大幅に向上させますが、標準モードでは数学タスクと競合します。数学における本当の進歩はクロスドメインの構造化推論トレース(コード-テキストと数学-テキストの混合)から来ており、Mixture-of-Expertsモデルのメカニスティック分析がエキスパート活性化パターンにこれらの相互作用を明らかにしています。

🔴 🤖 モデル 2026年5月20日 · 3 分で読めます

Google:Gemini 3.5 FlashとPro——これまでで最速のフロンティアモデル

Editorial illustration: Google je na Google I/O 2026 predstavio Gemini 3.5 Flash i Pro — frontier modele koji su 4× brži od

GoogleはGoogle I/O 2026でGemini 3.5 FlashとProを発表しました——競合他社より4倍速いフロンティアモデルで、エージェントタスクへの特別な注力、開発者向けの新プラットフォームAntigravity 2.0、24時間年中無休で利用可能な個人AIエージェントGemini Sparkを強調しています。

🔴 🤖 モデル 2026年5月20日 · 3 分で読めます

Google:Gemini Omni Flashが混合入力からのネイティブ動画生成を実現

Editorial illustration: Google je na I/O 2026 predstavio Gemini Omni Flash — novi multimodalni model koji generira i uređuje

GoogleはI/O 2026でGemini Omni Flashを発表しました——画像、音声、動画、テキストの組み合わせから動画を生成・編集する新しいマルチモーダルモデルです。YouTube Shortsで本日から利用可能で、生成されたすべてのクリップにSynthIDデジタル透かしが必須で組み込まれます。

🟡 🤖 モデル 2026年5月20日 · 2 分で読めます

Google:ERA——科学コードの記述を自動化するAIシステム

Editorial illustration:

Googleは『Nature』誌にERA(Empirical Research Assistance:実証研究支援)を発表しました——Geminiを活用したシステムで、ツリーサーチにより数千の計算アプローチを評価し、専門的な科学ソフトウェアの記述を自動化します。Computational DiscoveryプラットフォームはGoogle Labs経由で研究者向けに公開されています。

🟢 🤖 モデル 2026年5月20日 · 2 分で読めます

arXiv:2605.19660:OScaR — INT2量子化KVキャッシュで3倍高速デコーディングを実現

Editorial illustration: Istraživači su objavili OScaR, metodu koja rješava temeljni problem kvantizacije KV cachea u velikim

研究者たちが大規模言語モデルのKVキャッシュ量子化の根本的な問題を解決するOScaRを発表しました。値ごとにわずか2ビットのINT2精度を使用し、ほぼ精度損失なしに3倍高速なデコーディング、5.3倍のメモリ削減、BF16 FlashDecoding-v2比4.1倍のスループット向上を達成しています。

🔴 🤖 モデル 2026年5月19日 · 4 分で読めます

arXiv:2605.15514: RoPEは長いコンテキストで位置もトークンも区別できない――基本的限界の理論的証明

Editorial illustration: arXiv論文2605.15514がRoPE位置エンコーディングの根本的限界を理論的に証明――長コンテキストで位置とトークンの区別能力を失う

arXiv論文2605.15514は、Llama・Mistral・Qwen・GPT-NeoXを含むほぼすべての現代的な大規模言語モデルが使用するRotary Positional Embeddings(RoPE)が、長いコンテキストで位置とトークンを区別する能力を失うことを数学的に証明しています。著者らは根本的に新しいアーキテクチャメカニズムが必要と結論付けています。

🟡 🤖 モデル 2026年5月19日 · 2 分で読めます

Anthropic: Claude APIのウェブ検索ツールがSEC申告書の充実した構造化データを返すよう更新

Editorial illustration: Anthropicが2026年5月18日にClaude APIのウェブ検索ツールを更新し、SEC申告書からより豊富で構造化されたデータを返すよう改善

Anthropicは2026年5月18日、Claude APIのウェブ検索ツールを更新し、10-K・10-Q・8-K文書を含むSEC申告書からより豊富で構造化されたデータを返すようにしました。このアップグレードにより、引用付きの一次情報源を用いた収益分析・デューデリジェンス・調査のための金融エージェント構築が容易になります。

🟢 🤖 モデル 2026年5月19日 · 2 分で読めます

arXiv:2605.18732:幻覚のスケーリング則——大きなモデルが必ずしも少ないエラーを意味しない

Editorial illustration: LLM幻覚スケーリング則研究

研究者が38のモデルと8900以上の参考文献で、LLMの事実想起がシグモイド曲線に従うことを示しました:パラメータ数とトレーニングデータでのトピックの出現頻度の組み合わせが分散の60〜94%を説明します。幻覚はランダムではありません——予測可能で測定可能です。

🟡 🤖 モデル 2026年5月18日 · 4 分で読めます

GitHub Copilot:GPT-5.3-CodexがBusinessおよびEnterpriseの基盤モデルに、12ヶ月LTS保証付き

Editorial illustration: GitHub Copilot logo s GPT-5.3-Codex badge i LTS support stamp.

GitHubは2026年5月17日、GPT-5.3-CodexがGPT-4.1に代わりCopilot BusinessおよびEnterpriseの基盤モデルになると発表しました。この変更はエンタープライズ・ティアのみが対象です(Copilot Pro、Pro+、Freeは対象外)。GPT-5.3-Codexは初のLTS(長期サポート)モデルであり、2026年2月5日から2027年2月4日まで12ヶ月の利用可能性が保証されます。価格:プレミアム・リクエスト乗数1×。GPT-4.1は2026年6月1日の廃止まで乗数0×(無料)で強制有効のまま維持されます。

🟡 🤖 モデル 2026年5月16日 · 3 分で読めます

Black Forest Labs: FLUX Outpaintingが光・テクスチャ・構図を保持しながら任意の方向に画像を拡張

Editorial illustration: 光とテクスチャを保持しながらフレームの外へ広がる画像。

FLUX Outpaintingは、Black Forest Labsが2026年5月14日に発表した新しい画像生成機能で、専用の拡張エンドポイントを通じて任意の方向に画像を拡張します。ユーザーはターゲットキャンバスのサイズと配置座標を指定——モデルはテキストプロンプトなしで拡張領域全体で光、テクスチャ、深度、構図を保持します。最大4MP出力、BFL API経由で利用可能、パブリックデモはflux-tools.bfl.ai/outpaintingで確認できます。

🟡 🤖 モデル 2026年5月15日 · 2 分で読めます

Amazon Nova 2 Sonic: エンドツーエンド遅延500ms以下・音声遅延30ms以下の音声対音声基盤モデル

編集イラスト:音声エージェントに音声波形とエッジネットワークグラフィック。

Amazon Nova 2 Sonicは2026年5月14日にAmazon Bedrockを通じて発表された第2世代の音声対音声基盤モデルです。別個の音声認識・音声合成サービスの必要性を排除し、エンドツーエンド遅延500ms以下、Streamエッジネットワーク経由の音声遅延30ms以下、ネイティブターン検出、割り込みサポート、会話中の関数呼び出しを実現します。Stream Vision Agentsフレームワークが双方向音声ストリーム管理を抽象化します。

🟡 🤖 モデル 2026年5月15日 · 3 分で読めます

arXiv:2605.15177 OpenDeepThink: Bradley-Terry 集約による並列推論で Gemini 3.1 Pro の Codeforces Elo が +405 向上

編集イラスト:ペアワイズ判定シンボルと Elo レーティングを持つ並列推論分岐の図。

OpenDeepThink は、Shang Zhou および共同研究者が 2026 年 5 月 14 日に arXiv で発表した新しいポピュレーションベースのテスト時計算スケーリング手法です。このフレームワークは、ポイントワイズ LLM 判定ではなく、ペアワイズ Bradley-Terry 比較によって複数の推論候補を並列サンプリングし、最良のものを選択します。結果として、8 回のシーケンシャル LLM 呼び出しラウンド(約 27 分)を通じて、Gemini 3.1 Pro は Codeforces ベンチマークで +405 Elo の向上を達成しました。チームはまた、73 の専門家評価 Codeforces 問題を含む CF-73 データセットを公開しました。

🟡 🤖 モデル 2026年5月14日 · 3 分で読めます

arXiv:2605.13301 SU-01:30B A3B モデルが3段階トレーニングで IMO 2025・USAMO 2026・IPhO において金メダルレベルを達成

編集イラスト:数学の数式と AI 推論ツリーを持つメダル表彰台。

SU-01 は2026年5月14日に arXiv で公開された新しい推論トレーニング手法論です(Yafu Li ほか27名の共著者、責任著者 Runzhe Zhan)。30B パラメータ A3B バックボーンが、340K トラジェクトリを使った逆パープレキシティカリキュラム SFT、2段階 RL、テスト時スケーリングという3つの連続フェーズを通じて、IMO 2025、USAMO 2026、IPhO 2024-2025 で金メダルレベルのパフォーマンスを達成します。推論チェーンは 100K+ トークンに達します。

🟢 🤖 モデル 2026年5月14日 · 3 分で読めます

Allen Institute:AIMIPベンチマーク——AI気候モデルは過去データで2倍優れていますが、長期的な温暖化には汎化しません

編集イラスト:過去データと比較されたAIモデルラインを持つ気候時系列グラフ。

AIMIP(AIモデル比較プロジェクト)は、2026年5月13日にAllen InstituteがNVIDIA・Google Research・ワシントン大学・メリーランド大学・ArchesWeatherグループと共同で発表した、AIの気象・気候モデル向けコミュニティベンチマークです。第1フェーズで8つのAIモデルシミュレーションを評価した結果、過去データでの誤差が半分になることが示されましたが、同時に長期的な温暖化傾向への汎化能力の深刻な欠如も明らかになりました。

🟢 🤖 モデル 2026年5月14日 · 2 分で読めます

Microsoft Research GridSFM:ファウンデーションモデルがAC最適潮流をDC近似の100倍速く解きます

編集イラスト:AIファウンデーションモデルと最適化グラフを持つ電力系統ネットワーク。

GridSFMは、2026年5月13日にMicrosoft Researchが発表した電力系統向けの新しい小型ファウンデーションモデルです。500ノードから80,000ノードの電力系統でAC最適潮流をミリ秒単位で近似し、DC近似の100倍、完全なACソルバーの1,000倍高速です。中央値コストギャップは2.23%、実行可能性検出は94.5%/96.1%を達成し、年間200億ドルの混雑コスト削減の可能性があります。

🟡 🤖 モデル 2026年5月13日 · 2 分で読めます

Anthropic: Claude Opus 4.7 Fast Mode がリサーチプレビューに——フラグシップモデルの高速出力

エディトリアルイラスト:プレミアムシグナルの下でニューラルアーキテクチャを流れる高速トークンストリーム。

Claude Opus 4.7 Fast Mode は 2026 年 5 月 12 日に公開された Anthropic API の新しいリサーチプレビュー機能で、Anthropic 最強モデルの出力トークン生成を大幅に高速化しますが、プレミアム料金が必要です。開発者は speed="fast" パラメーター、モデル claude-opus-4-7、そして fast-mode-2026-02-01 ベータヘッダーでモードを有効化します。アクセス権、レート制限、料金は Opus 4.6 Fast Mode と同一です。

🟢 🤖 モデル 2026年5月13日 · 2 分で読めます

Microsoft Research: MatterSim が 152 W/m/K の TaP を実験合成、MatterSim-MT が PES の枠を超えた出力を追加

エディトリアルイラスト:熱伝導の可視化を持つ結晶材料構造。

MatterSim は 2026 年 5 月 12 日に結果が公開された Microsoft Research の材料科学向け新しい基盤モデルです。モデルは実験的に合成され 152 W/m/K(シリコンに近い値)と測定された正方晶系 TaP を予測しました。MatterSim-v1 の推論は 3〜5 倍高速化され、新しい MatterSim-MT マルチタスクモデルは応力テンソル、磁気モーメント、Born 有効電荷、誘電率行列を追加します。

🟡 🤖 モデル 2026年5月12日 · 2 分で読めます

vLLM:オープンソース推論エンジンが Artificial Analysis リーダーボードで首位を獲得

Editorial illustration: オープンソース推論エンジンが Artificial Analysis リーダーボードで首位を獲得

vLLM はオープンソースの推論エンジンで、積極的なカーネル融合(1 レイヤーあたり 33→10 起動、1.28× 高速化)、カスタム EAGLE3 ドラフトモデルによる投機的デコード、線形アテンションパス最適化により、DeepSeek V3.2・MiniMax-M2.5・Qwen 3.5 397B の 3 つのフロンティアモデルで Artificial Analysis リーダーボード首位を獲得しました。

🟢 🤖 モデル 2026年5月12日 · 2 分で読めます

arXiv:2605.07776:LLM 推論トレースにおける不確実性の追跡——最初の 100 トークンからエラーを予測可能

Editorial illustration: 2605.07776: LLM 推論トレースにおける不確実性の追跡——最初の 100 トークンからエラーを予測可能

arXiv:2605.07776 は大規模言語モデルの推論トレースにおける不確実性追跡の研究です。著者(Grünefeld・Højer・Mondorf・Plank・Rogers ら)が「不確実性トレースプロファイル」を開発しました——最初の数百トークンだけでも AUROC 0.801 を達成し、5 つのモデルにわたって AUROC 0.807 で正確な結果を予測できるコンパクトな特徴セットです。

🟡 🤖 モデル 2026年5月11日 · 2 分で読めます

arXiv:2605.06635:LLMエージェントは引用するが検証しない——リンク有効率94%以上、正確率は39〜77%

Editorial illustration: 2605.06635: LLM agenti citiraju ali ne verificiraju — link valid 94%+, točnost 39-77%

新研究が14のLLMモデルをディープリサーチタスクでテストし、大きな乖離を発見しました。リンク有効率は94%以上ですが、引用の事実正確率は39〜77%に過ぎません。重要な発見:ツール呼び出し数が2から150に増えると引用正確率が42%低下し、「検索が多いほど品質が上がる」という仮定を覆します。

🟡 🤖 モデル 2026年5月11日 · 2 分で読めます

arXiv:2605.07990: LLMのツール呼び出しは線形に表現されている——均値差ベクトルが77-100%の精度でツール選択を変更

Editorial illustration: arXiv:2605.07990 LLMのツール呼び出しは線形に表現——均値差ベクトルが77-100%の精度でツール選択を変更

UCL、Holistic AI、帝国大学の研究者たちは、LLMがツール選択を内部で線形に表現していることを発見しました。均値差ベクトル——2つのツールの平均活性化の差——を活性化に追加することで、12のテスト済みモデル(2.7億〜270億パラメータ)において、ファインチューニングなしで77-100%の精度でツール選択を変更できます。

🟢 🤖 モデル 2026年5月11日 · 2 分で読めます

arXiv:2605.06660:VHG——困難な数学問題を生成するための検証器支援フレームワーク

Editorial illustration: 2605.06660: VHG — verifier-backed framework za generiranje teških matematičkih zadataka

VHG(Verifier-backed Hard Problem Generation)フレームワークは、LLM訓練のための有効で困難かつ独創的な数学問題を作成する課題を解決します。出題者-解答者の双対性に独立した検証器を導入——三者間自己対戦が問題の有効性と難易度の両方を保証します。積分学でテストしたところ、VHGはすべてのベースライン手法を明確に上回りました。

🟢 🤖 モデル 2026年5月11日 · 2 分で読めます

arXiv:2605.07925: LLMの価値誘導——ポジティブな価値観を含め、すべての価値観がおべっか行動を増加させる

Editorial illustration: arXiv:2605.07925 LLMの価値誘導——ポジティブを含む全価値観がおべっか行動を増加させる

価値誘導は特定の価値観(helpfulness、harmlessness、honesty)を強調するポスト訓練技術です。ACL 2026 Findingsの研究は、ポジティブな価値観の誘導が安全性を向上させる一方、テストされたすべての価値観が擬人化言語を増加させ、どの価値観を強調するかに関わらずモデルをより「迎合的でおべっかを使う」ようにすることを示しています。

🟡 🤖 モデル 2026年5月9日 · 2 分で読めます

Allen Institute: EMO――データから自然なセマンティック・モジュール性を持つMoE言語モデル

編集用イラスト:エキスパートが意味的ドメインでグループ化されたMoE言語モデルの構成図

EMOはAllen Instituteによる新しいMoE言語モデルで、10億のアクティブパラメータと140億の総パラメータを持ち、1兆トークンで訓練されています。エキスパートは意味的なドメインに自己組織化され、アクティブなエキスパートを25%にしてもパフォーマンスの低下はわずか1%です。

🟡 🤖 モデル 2026年5月9日 · 2 分で読めます

arXiv:2605.06638: ScaleLogic——RLの計算量は推論深度の冪乗則に従う

編集イラスト:計算量と推論深度を結ぶ直線の対数-対数スケールグラフ

ScaleLogicは、long-horizon推論に必要なRL計算量が深度の冪乗則に従うことを示す合成フレームワークです:T ∝ D^γ(R² > 0.99)。指数γは論理の表現力に応じて1.04から2.60まで変化し、より表現力の高いトレーニングは下流ベンチマークで最大+10.66点の向上をもたらします。

🔴 🤖 モデル 2026年5月8日 · 2 分で読めます

OpenAI: 推論と翻訳に対応した3つの新しいリアルタイム音声モデルをAPIに追加

編集イラスト:推論と翻訳に対応した3つの新しいリアルタイム音声モデルをAPIに追加

OpenAIは2026年5月7日、APIに3つの新しいリアルタイム音声モデルを発表しました。GPT-Realtime-2はGPT-5クラスの推論と128,000トークンのコンテキストを備え、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのリアルタイム翻訳を実現し、GPT-Realtime-Whisperはライブ音声文字起こしを提供します。

🟡 🤖 モデル 2026年5月8日 · 2 分で読めます

Google: Gemini 3.1 Flash-Liteが一般提供(GA)開始

編集イラスト:Gemini 3.1 Flash-Liteが一般提供(GA)開始

Gemini 3.1 Flash-Liteは2026年5月7日よりGemini APIを通じて安定した本番エンドポイントとして一般提供(GA)されています。このモデルは速度、スケール、コスト効率に最適化されており、プレビュー版は2026年5月25日に終了します。

🟡 🤖 モデル 2026年5月7日 · 3 分で読めます

arXiv:2605.03195: Terminus-4B——40億パラメータのターミナル実行モデルがSWE-Bench ProでClaude OpusとGPT-5.3-Codexに匹敵し、メインエージェントのトークン使用量を約30%削減

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4BはエージェントシステムのターミナルExecution専用に特化した40億パラメータのQwen3ファインチューンモデルです。SWE-Bench ProベンチマークでClaude Sonnet/OpusとGPT-5.3-Codexのベースラインに匹敵または凌駕し、冗長なビルド/テストログをサブエージェントのコンテキストに隔離することでメインエージェントのトークン消費を約30%削減します。

🟡 🤖 モデル 2026年5月7日 · 2 分で読めます

arXiv:2605.04908: キュレーションされた製薬データベースを持つGossetがフロンティアLLMを3.2倍上回る

編集イラスト:精選製薬データベースを持つGossetがフロンティアLLMを3.2倍上回る

Gossetはキュレーションされた製薬データを持つ専門AIプラットフォームであり、4つのフロンティアシステムとの比較で、クエリあたり3.2倍多くの検証済み薬剤を返し、10のニッチながん・免疫学ターゲットで100%精度と完全再現率を達成しました。

🟡 🤖 モデル 2026年5月7日 · 2 分で読めます

Google: Gemini APIがマルチモーダルなFile Search画像検索とInteractions APIの破壊的変更を導入

編集イラスト:Gemini APIがマルチモーダルFile SearchとInteractions API破壊的変更を導入

GoogleはGemini File Searchをgemini-embedding-2モデルを使ったマルチモーダル画像検索に拡張し、視覚的な引用のためにグラウンディングメタデータにmedia_idを追加しました。同時に、Interactions APIの破壊的変更を発表しました。outputsがstepsに変わり、新しいデフォルトは2026年5月20日から、旧スキーマの廃止は2026年6月6日となります。

🔴 🤖 モデル 2026年5月6日 · 2 分で読めます

OpenAI: GPT-5.5 Instant が ChatGPT の新しいデフォルトモデルに、幻覚を削減

編集イラスト:青い背景に GPT-5.5 Instant が新しいデフォルトモデルとして表示された ChatGPT インターフェース

GPT-5.5 Instant は OpenAI が 2026 年 5 月 5 日に発表した新しい ChatGPT のデフォルトモデルです。より賢く正確な回答、幻覚の削減、個性化の向上をもたらし、同時にシステムカードも公開されました。

🟡 🤖 モデル 2026年5月6日 · 2 分で読めます

arXiv:2605.03871: EvoLM — 外部監督なしで自己改善する言語モデル

編集イラスト:外部監督なしにスコアと改善を交換するフィードバックループ内の2つの言語モデル

EvoLMは外部監督を排除するポストトレーニング手法です——Qwen3-8BルーブリックジェネレーターはRewardBench-2でGPT-4.1を25.7%上回り、SkyWork-RMを16%上回ります。訓練されたポリシーはOLMo3-Adaptベンチマークで69.3%を達成します。

🟡 🤖 モデル 2026年5月6日 · 2 分で読めます

Google: Gemini API File Search が画像とテキストのマルチモーダル検索に対応

編集イラスト:Gemini API が埋め込みモデルを通じて画像とテキストを共通のセマンティック検索に組み合わせている

Google が Gemini API の File Search をマルチモーダル検索に拡張し、gemini-embedding-2 モデルを通じて画像とテキスト文書のネイティブな埋め込みと検索を可能にしました。2 つの新しい grounding フィールドと Batch API 向けのイベント駆動型 webhook サポートが追加されました。

🟡 🤖 モデル 2026年5月6日 · 2 分で読めます

Microsoft Research: DroidSpeak がファインチューニング済み LLM バリアント間で KV キャッシュを共有し、4× の高いスループットを実現

編集イラスト:データセンターで複数のファインチューニング済み LLM バリアント間の KV キャッシュ共有の図

Microsoft Research が NSDI 2026 で DroidSpeak を発表しました。これはアーキテクチャが同一のファインチューニング済み LLM バリアント間で KV キャッシュを共有するシステムで、数十のドメインモデルを持つエンタープライズシナリオで最大 4× の高いスループットを達成し、品質の低下は最小限です。

🟡 🤖 モデル 2026年5月5日 · 3 分で読めます

ArXiv AgentFloor:小型オープンウェイトモデル(0.27B-32B)が短期エージェントタスクに十分、GPT-5は長期計画のみで優位を維持

編集イラスト:異なるレベルに異なるサイズのモデルが配置された能力のはしご、ツール使用評価の象徴

Ranit KarmakarとJayita ChatterjeeがAgentFloorを発表しました——6つの能力レベルに構成された30タスクの決定論的ネットワークで、0.27Bから32Bのパラメーター範囲の16のオープンウェイトモデルとGPT-5を評価しています。結論:小型モデルは短期・構造化されたエージェントタスクには既に十分であり、フロンティアモデルは制約のある長期計画においてのみ明確な優位を維持します。

🟡 🤖 モデル 2026年5月5日 · 3 分で読めます

ArXiv Token Arena:エネルギーと認知を統合する継続的ベンチマーク、エンドポイント間で正解あたりエネルギーの6.2倍の差を発見

編集イラスト:AI推論エンドポイントのエネルギーと認知を測定する天秤、多次元ベンチマークの象徴

Yuxuan Gao、Megan Wang、Yi Ling Yuは2026年5月1日、Token Arenaを発表しました——エンドポイントレベル(78エンドポイント、12モデルファミリー)でAI推論を評価する継続的ベンチマークプラットフォームです。同一モデルが異なるエンドポイント間でmath/codeベンチマークが最大12.5点差、テールレイテンシが桁違い、正解あたりエネルギーが最大6.2倍異なることを明らかにしました。プラットフォームはCC BY 4.0ライセンスの下で結果を公開しています。

🟡 🤖 モデル 2026年5月5日 · 2 分で読めます

NIST CAISI:DeepSeek V4 Proはこれまで評価した中で最も優れた中国AIモデルだが、米国フロンティアに8ヶ月遅れ

編集イラスト:8ヶ月の遅れを示すタイムライン上のAIモデル、独立評価の象徴

米国NIST傘下の人工知能標準・イノベーションセンター(CAISI)は2026年5月1日、DeepSeek V4 Proモデルの独立評価を発表しました。結論:これは評価されたPRC AIモデルの中で最も優れていますが、総合能力において米国フロンティアから約8ヶ月遅れています。評価は5つの分野(サイバーセキュリティ、ソフトウェアエンジニアリング、自然科学、抽象的推論、数学)における非公開ベンチマークを使用して実施されました。

🟢 🤖 モデル 2026年5月5日 · 3 分で読めます

arXiv:2605.02572: 長いホライズンがLLM学習を不安定化 — ICML 2026論文が「ホライズン汎化」を解決策として提案

編集イラスト:ニューラルノードとデータフローが収束する亀裂の入った水平線

ICML 2026採択論文が、タスクホライズン長を増やすと探索問題とクレジット割り当て問題により深刻なLLM学習不安定が生じることを実証的に示しています。提案する解決策:学習時にホライズンを短縮し、推論時に明示的な「ホライズン汎化」メカニズムを使用する方法です。この論文はフロンティアモデル学習におけるタスクホライズンのスケーリングに関する最初の実証的なルールを確立しています。

🟢 🤖 モデル 2026年5月4日 · 2 分で読めます

AdaMeZO:GPU メモリにモーメントを保存せずAdam方式でLLMをファインチューニング

Editorial illustration: AdaMeZO:GPUメモリにモーメントを保存せずAdam方式でLLMをファインチューニング

AdaMeZOはゼロ次最適化器で、Adamアルゴリズムの利点とMeZOのメモリ効率を組み合わせてLLMをファインチューニングする。前向きパスのみを使用し、MeZOと比較して最大70%のパス数削減を達成しつつ、収束性を改善する。

🟢 🤖 モデル 2026年5月4日 · 2 分で読めます

BWLA:1ビット量子化LLMで3.26倍の高速化と70%の改善を達成(ACL 2026)

Editorial illustration: BWLA:1ビット量子化LLMで3.26倍の高速化と70%の改善を達成(ACL 2026)

BWLAは大型言語モデルの訓練後量子化の新フレームワークで、精度を大幅に損なわずに初めて同時に1ビット重みと低ビット活性化を達成した。Qwen3-32Bモデルでパープレキシティ11.92を実現し、既存手法と比べ推論速度3.26倍を達成した。

🟡 🤖 モデル 2026年5月2日 · 3 分で読めます

Latent-GRPO:潜在推論のための安定したRL最適化——GSM8K-Augで7.86ポイント、AIMEで4.27ポイント向上、推論チェーンは3-4倍短縮

Editorial illustration: kompresija mreže rezoniranja u sažeti latentni prostor

研究者らは、推論ステップを連続表現に圧縮する潜在推論(latent reasoning)向けの安定化RLアプローチであるLatent-GRPOを提示した。潜在空間における直接的なGRPOには3つの根本的問題——無効な潜在状態、報酬信号とトークン更新の不整合、無効な平均状態——があると特定し、無効サンプルのアドバンテージマスキング、片側ノイズサンプリング、最適正解パスの先頭トークン選択の組み合わせで解決した。結果:GSM8K-AugでPass@1 +7.86、AIMEで +4.27ポイント、推論チェーンは3-4倍短縮。

🟡 🤖 モデル 2026年5月2日 · 2 分で読めます

GitHubが2026年6月1日にCopilotからGPT-5.2とGPT-5.2-Codexを廃止——GPT-5.5とGPT-5.3-Codexへの移行

Editorial illustration: GitHub Copilot dashboard s novim modelom koji zamjenjuje stari

GitHubは、2026年6月1日にすべてのCopilotエクスペリエンスからGPT-5.2とGPT-5.2-Codexモデルを廃止すると発表しました。Chat、インライン編集、askおよびagentモード、コード補完のユーザーはGPT-5.5に移行し、CodexユーザーはGPT-5.3-Codexに移行します。例外はCopilot Code Reviewで、GPT-5.2-Codexは引き続き利用可能です。エンタープライズ管理者は期限前にモデルポリシーで新しいモデルを手動で有効にする必要があります。

🟡 🤖 モデル 2026年5月2日 · 2 分で読めます

NIST CAISI によるDeepSeek V4 Pro評価:5分野9ベンチマークで米国フロンティアモデルに8か月遅れ

Editorial illustration: vaga koja uspoređuje AI modele iznad geopolitičke karte

NISTのAI標準・イノベーションセンター(CAISI)が、中国モデルDeepSeek V4 Proの独立評価を5分野9ベンチマーク(サイバーセキュリティ、ソフトウェアエンジニアリング、自然科学、抽象推論、数学)にわたって実施しました。主要な知見:V4は米国フロンティアモデルから8か月遅れており、特にDeepSeekが自社の技術レポートに含めていない推論とエージェントタスクで顕著です。利用コストは7テスト中5つでGPT-5.4 miniより安価でした。

🟢 🤖 モデル 2026年5月2日 · 2 分で読めます

KellyBench:AIエージェントがPremier Leagueシーズンを通じて賭けの資金を管理——主要モデルはすべて損失

Editorial illustration: nogometni stadion s digitalnom analizom kvota

KellyBenchは逐次意思決定をテストする新しいベンチマークです:AIエージェントが統計、出場選手、市場オッズを使用して、2023/24シーズン全体を通じてPremier Leagueの賭け資金を管理します。テストされたすべての主要モデルが損失を出し、Claude Opus 4.6は専門家による戦略洗練度ルーブリックで26.5%を達成しました。

🔴 🤖 モデル 2026年5月1日 · 3 分で読めます

PyTorch SMG:LLMサービングでのCPU/GPU分離がLlama 3.3 70B FP8の出力スループットを3.5倍に、Google Cloud・Oracle・Alibabaで本番稼働中

編集イラスト:独立したCPUゲートウェイレイヤーがgRPCネットワークでGPUを接続するサーバーラック

LightSeek Foundationは2026年4月30日にPyTorchブログでShepherd Model Gateway(SMG)を発表しました。これはCPUバウンドタスク(トークナイゼーション、MCPオーケストレーション、チャット履歴、マルチモーダル前処理)をGPUプロセスから独立したgRPCレイヤーに移動するRustゲートウェイです。Llama 3.3 70B FP8は1150対327の出力トークン/秒(3.5倍スループット)を達成し、ソリューションはGoogle Cloud、Oracle Cloud、Alibaba Cloud、TogetherAIで既に本番稼働しています。

🟡 🤖 モデル 2026年5月1日 · 2 分で読めます

2026年春季AstaBench:Claude Opus 4.7が科学AIベンチマークで58%でトップ、GPT-5.5はコストが半分

編集イラスト:科学タスクにおけるAIモデルのパフォーマンスグラフを示すリーダーボードテーブル、中立的な実験室の美学

アレン研究所が科学分野のAIエージェント向け2400問を含む更新AstaBenchリーダーボードを公開しました。Claude Opus 4.7が58.0%でトップ、GPT-5.5は52.9%で問題あたりのコストが半分以下です。主要な発見:特定のタスクでの高成績は、必ずしも堅牢なエンドツーエンドの科学的研究能力を意味しません。

🟢 🤖 モデル 2026年5月1日 · 2 分で読めます

AnthropicがSonnet 4.5とSonnet 4の100万コンテキストベータを終了——4.6への移行が必須に

編集イラスト:2つのAPIバージョンブロック間の移行矢印、ミニマリストな技術的美学

Anthropicは2026年4月30日、Claude Sonnet 4.5とSonnet 4の100万トークンコンテキストウィンドウのベータヘッダーを閉鎖しました。20万トークンを超えるリクエストはエラーを返すようになりました。ユーザーはSonnet 4.6またはOpus 4.6に移行する必要があり、これらのモデルではベータヘッダーなしで100万コンテキストが正式に利用可能です。

アーカイブ全体を見る →