2026年4月30日木曜日

15 件 — 🔴 2 重大 , 🟡 12 重要 , 🟢 1 注目

← 前日 翌日 →

🤖 モデル (4)

🔴 🤖 モデル 2026年4月30日 · 2 分で読めます

BioMysteryBench:Mythos Preview が専門家でも解けないバイオインフォマティクス問題を解決、Opus 4.6 は人間が解ける課題で 77.4% を達成

編集イラスト:科学機器とともに RNA-seq データを解析する AI エージェント

Anthropic は 2026 年 4 月 29 日に BioMysteryBench を発表しました。これは実験データの客観的なグラウンドトゥルースを用いた、99 問の専門的なバイオインフォマティクス課題からなる評価フレームワークです。Claude Opus 4.6 は人間が解ける 76 問で約 77.4% の精度を、23 問の超人間的な課題で 23.5% を達成しています。一方、Mythos Preview は人間の専門家パネルでも解けなかった問題を解決しており、研究者たちはこれを生命科学における AI の転換点と表現しています。

🔴 🤖 モデル 2026年4月30日 · 2 分で読めます

NVIDIA Nemotron 3 Nano Omni:30B-A3B MoE マルチモーダルモデル、AI エージェント向けに 9 倍のスループットを実現

編集イラスト:統一アーキテクチャでビジョン・オーディオ・テキストを処理するマルチモーダル AI モデル

NVIDIA は 2026 年 4 月 28 日に Nemotron 3 Nano Omni を発表しました。これはオープンソースの 30B-A3B ハイブリッド Mixture-of-Experts モデルで、256K コンテキストの単一アーキテクチャにビジョン、オーディオ、言語、ビデオ、ドキュメント、GUI スクリーンショットの処理を統合しています。同等のインタラクティビティを維持しながら、他のオープンな全モード対応モデルと比べてスループットが 9 倍高く、ドキュメント・ビデオ・オーディオ理解の 6 つのリーダーボードでトップを占めています。Hugging Face、OpenRouter、build.nvidia.com、25 以上のパートナープラットフォームで利用可能で、早期採用者には Palantir、Foxconn、Eka Care が含まれます。

🟡 🤖 モデル 2026年4月30日 · 3 分で読めます

ArXiv:思考の連鎖を持つ標準的なトランスフォーマーはTC^0複雑性を超えた推論ができない — シグナルポストトークンが長さ汎化可能なチューリング模倣を可能に

編集イラスト:思考の連鎖の断絶とシグナルポストシンボルを持つトランスフォーマーアーキテクチャ

Kraus、Sarrof、Yao、Koller、Hahnによる新しいArXivプレプリントは、長さ汎化学習のより厳しい要件下では、思考の連鎖(CoT)推論を持つ標準的なトランスフォーマーはTC^0複雑性を超えた問題を解けないことを示しています。CoTの実証的な成功は、実際には理論的なチューリング完全性を意味しません。提案された解決策 — 動的な語彙拡張とシグナルポストトークン — は、線形CoTオーバーヘッドで長さ汎化可能なチューリング機械のシミュレーションを可能にします。

🟡 🤖 モデル 2026年4月30日 · 2 分で読めます

PyTorch AutoSP:コンパイラベースのツールがトレーニングコードを自動的にシーケンス並列化、100k+トークンコンテキストに対応

編集イラスト:コンパイラシンボルと共に複数のGPUコアに分散されるトークン

PyTorchは2026年4月29日にAutoSPを発表しました。これはDeepSpeed/DeepCompile内のコンパイラベースのツールで、標準的な単一GPUトランスフォーマートレーニングコードをシーケンス並列形式に自動変換します。100k+トークンのコンテキストでLLMをトレーニングする際に必要な手動のトークンパーティショニングと通信コレクティブ操作の実装を不要にします。UIUC SSAIL Lab、Anyscale、Snowflakeが共同開発しました。

📦 オープンソース (1)

🤝 エージェント (5)

🟡 🤝 エージェント 2026年4月30日 · 3 分で読めます

ArXiv Odysseys:CMUによるリアルなウェブエージェントベンチマークで、最強のフロンティアモデルが長程タスクで44.5%の成功率と1.15%の軌跡効率しか達成できないことが判明

編集イラスト:評価ルーブリックを持つ長いタスクネットワークに接続されたウェブページ

CMUの研究者Lawrence Keunho Jang、Jing Yu Koh、Daniel Fried、Ruslan Salakhutdinovは2026年4月27日、ArXivプレプリント「Odysseys」を発表しました。これはライブインターネット上の本物のブラウジングセッションから得た200の長程ウェブタスクのベンチマークです。ルーブリックベースの評価(タスクあたり平均6.1のルーブリック)により、最強のフロンティアモデルでもわずか44.5%の成功率と1.15%の軌跡効率しか達成できないことが示され、現在のウェブエージェントの巨大な欠点が明らかになりました。

🟡 🤝 エージェント 2026年4月30日 · 3 分で読めます

AWS Bedrock AgentCore:エンタープライズガバナンス向けに IAM、OAuth 2.0 JWT、CloudWatch 可観測性を備えたサーバーレス MCP プロキシ

編集イラスト:エージェントとツールの間にプロキシ層を持つサーバーレスアーキテクチャ

AWS は 2026 年 4 月 29 日、Amazon Bedrock AgentCore Runtime 上でカスタム MCP プロキシをサーバーレスワークロードとしてデプロイするためのリファレンスアーキテクチャを公開しました。プロキシは AI エージェントと上流 MCP サーバーの間に配置され、既存のシステムを変更することなくガバナンス制御——入力検証、PII の削除、監査ログ、レート制限——を注入できます。このアーキテクチャはツールの動的検出に FastMCP フレームワークを使用し、IAM/SigV4 および OAuth 2.0 JWT 認証をサポートし、CloudWatch と OpenTelemetry と統合されています。

🟡 🤝 エージェント 2026年4月30日 · 2 分で読めます

AWS Bedrock AgentCore Memory:IAMアクセス制御を備えた名前空間レベルのエージェント長期記憶の3つのアーキテクチャパターン

編集イラスト:名前空間の区画とアクセスキーを持つ階層的なエージェントメモリ

AWSは2026年4月29日、Bedrock AgentCore Memoryサービス内のエージェント長期記憶組織化のための参照アーキテクチャパターンを公開しました。3つの主要な名前空間パターンが異なるユースケースをカバーします:設定と事実のためのActor-Scoped、会話要約のためのSession-Scoped、セッション間の経験一般化のためのEpisodic with Reflection Hierarchy。IAM条件キーにより名前空間レベルの厳格なアクセス制御が可能になります。

🟡 🤝 エージェント 2026年4月30日 · 2 分で読めます

LangChain の Deep Agents 向け harness プロファイル:GPT-5.3 Codex が tau2 ベンチマークで 33% から 53% へ、Opus 4.7 は 43% から 53% へ上昇

編集イラスト:異なる言語モデル用に交換可能なプロファイルを持つエージェントフレームワーク

LangChain は 2026 年 4 月 29 日に Deep Agents 向けの harness プロファイルシステムを発表しました。これにより同じコードが変更なしに Anthropic、OpenAI、Google のモデルと連携できます。プロファイルはモデル固有のシステムプロンプト、ツール、ミドルウェアを自動的に適用します。tau2 ベンチマークでは GPT-5.3 Codex が 33% から 53% へ、Claude Opus 4.7 が 43% から 53% へ精度が向上し、研究者たちは単一の harness がすべてのモデルに対して最適にはなれないと結論づけています。

🟡 🤝 エージェント 2026年4月30日 · 3 分で読めます

Mistral Medium 3.5 + Vibe:128Bの密なオープンウェイトモデルと非同期クラウドコーディングエージェント、100万トークンあたり$1.5/$7.5

編集イラスト:並行して動作するコーディングエージェントと非同期サンドボックスコンテナを持つクラウドプラットフォーム

Mistral AIは、256kコンテキストウィンドウを持ち、SWE-Bench Verifiedで77.6%を達成した1280億パラメータの密なモデル「Mistral Medium 3.5」を発表しました。改変MITライセンスのもとウェイトを公開しています。同時に、CLIまたはLe Chatから起動できる非同期クラウドコーディングエージェントプラットフォーム「Vibe」と、エンタープライズワークフロー向けのLe Chat Work modeプレビューも提供されます。料金は入力$1.5/100万トークン、出力$7.5/100万トークンです。

🏥 実践 (3)

🟡 🏥 実践 2026年4月30日 · 2 分で読めます

Anthropic Claude for Creative Work:Blender、50 以上の Adobe Creative Cloud ツール、Autodesk Fusion、Ableton、SketchUp、Splice と連携

編集イラスト:3D モデリング、オーディオプロダクション、グラフィックデザインを繋ぐ AI アシスタント

Anthropic は 2026 年 4 月 28 日、Blender、Autodesk Fusion、Adobe(50 以上の Creative Cloud ツール)、Ableton、Splice、Affinity と Canva、Resolume Arena、SketchUp との連携によるプロフェッショナルなクリエイティブソフトウェア向けの Claude コネクターを発表しました。Claude は Blender 向けに Python スクリプトを作成し、VJ 向けに Resolume をリアルタイムで制御し、Affinity でアセットのバッチ処理を自動化し、Splice のサンプルカタログを検索できます。Anthropic は Blender Development Fund にパトロンとして参加し、RISD、Ringling College、Goldsmiths の 3 つの学術機関が学生に Claude との協働を学ぶ授業を開始します。

🟡 🏥 実践 2026年4月30日 · 2 分で読めます

Google ERA:科学研究向けAIシステムが入院予測でCDC最高位を達成、未解決の宇宙論問題を解決、10分ごとにCO2を観測

編集イラスト:科学ツールとAIネットワークが星座状の多分野連結に繋がっている

Google Researchは2026年4月29日、ERA(経験的研究支援システム)を発表しました。これはLLMを計算ツールと組み合わせて科学研究を加速する社内AIシステムです。異なる分野にわたる4つの具体的な成果:COVID/インフルエンザ/RSV入院予測でCDCランキング首位、宇宙弦の重力波に関する6つの新解、10分ごとに大気CO2を観測するニューラルネットワーク、ゼブラフィッシュの解釈可能な神経回路。

🟡 🏥 実践 2026年4月30日 · 3 分で読めます

EvalEval Coalition:AI評価が新たな計算ボトルネックに — GAIAのシングルラン$2,829、HALリーダーボード$40,000、学術監査人は技術的障壁より先に予算の壁に直面

編集イラスト:トレーニングコストより評価コストが重い天秤

EvalEval Coalition(Avijit Ghosh、Yifan Mai、Georgia Channing、Leshem Choshen)は2026年4月29日、HuggingFaceブログにAIモデルの評価コストが爆発的に増加していることを示す分析を公開しました。単一のGAIAラン$2,829、HALリーダーボード$40,000(k=8信頼性$320,000)、PaperBenchはエージェントあたり約$9,500。静的ベンチマークは100-200倍圧縮可能ですが、エージェントベンチマークはわずか2-3.5倍。独立した監査人にとっての説明責任の障壁となっています。

💬 コミュニティ (1)

🛡️ セキュリティ (1)

← 前日 翌日 →