🤖 24 AI

2026年4月16日木曜日

17 件 — 🔴 2 重大 , 🟡 10 重要 , 🟢 5 注目

← 前日 翌日 →

🤖 モデル (2)

📦 オープンソース (1)

⚖️ 規制 (1)

🤝 エージェント (3)

🟡 🤝 エージェント 2026年4月16日 · 3 分で読めます

OpenAI:新世代Agents SDKがネイティブサンドボックス実行を導入し、信頼性の高いエージェントを実現

OpenAIはAgents SDKの大幅なアップグレードを発表しました。ネイティブサンドボックス実行とモデルネイティブハーネスを導入し、より信頼性の高い長期的なAIエージェントの構築を可能にします。新リリースはコード実行のセキュリティとエージェントの自律性に焦点を当て、開発チームが信頼性を維持しながら人間の監視なしに数時間動作できるエージェントを構築できるようにします。

🟢 🤝 エージェント 2026年4月16日 · 2 分で読めます

ArXiv:TREX——2つのAIエージェントが言語モデルのファインチューニング全プロセスを自動化

TREXは、大規模言語モデルのファインチューニングの完全なパイプラインを自動化する新しいマルチエージェントシステムです——要件分析と文献探索からデータ準備と結果評価まで。システムは実験プロセスを探索木としてモデル化し、10の実タスクを含むFT-Benchベンチマークでモデルのパフォーマンスを一貫して最適化します。

🟢 🤝 エージェント 2026年4月16日 · 2 分で読めます

IBM Research:VAKRAベンチマークがAIエージェントが複雑な推論で失敗することを明らかに

IBM ResearchはVAKRAを発表しました——8,000以上のローカルAPI、62のドメイン、4,187のテストインスタンスを含むエンタープライズ環境でAIエージェントを評価する新しいベンチマークです。主要な発見は、モデルが単純なタスクで表面的な能力を示すが複合的な推論で失敗し、マルチホップ推論が深さとともに劣化し、外部制約の遵守がパフォーマンスの大幅な低下を引き起こすというものです。

🔧 ハードウェア (2)

🏥 実践 (2)

💬 コミュニティ (1)

🛡️ セキュリティ (5)

🔴 🛡️ セキュリティ 2026年4月16日 · 3 分で読めます

ArXiv:MemJack——マルチエージェント攻撃がビジョン言語モデルの防御を最大90%の成功率で突破

MemJackはビジョン言語モデル(VLM)に対する新しいジェイルブレーク攻撃フレームワークで、従来のピクセル摂動ではなく複数エージェントの協調を利用します。未修正のCOCO画像でテストし、Qwen3-VL-Plusに対して71.48%の攻撃成功率を達成し、計算予算を拡大すると90%まで向上します。研究者たちは防御研究のために113,000件以上のインタラクティブなトラジェクトリーを公開することを発表しています。

🔴 🛡️ セキュリティ 2026年4月16日 · 3 分で読めます

OpenAI:Trusted Access for Cyberプログラムがグローバルなサイバー防衛に1000万ドルを投入

OpenAIは「Trusted Access for Cyber」イニシアチブを開始しました。これは主要なセキュリティ組織とエンタープライズユーザーを専用モデルGPT-5.4-Cyberの周りに集めるものです。プログラムにはグローバルなサイバー防衛強化を目的とした1000万ドルのAPIグラントが含まれており、OpenAIはAIをセキュリティエコシステムの積極的な参加者として位置づけています。

🟡 🛡️ セキュリティ 2026年4月16日 · 3 分で読めます

EleutherAI:報酬ハッキングを可視化される前に検出する新手法

EleutherAIは強化学習システムにおける報酬ハッキングの早期兆候を検出する「推論補間」手法に関する研究を発表しました。この技術は重要度サンプリングとファインチューニングされたドナーモデルを使用して将来のエクスプロイトパターンを予測し、AUCは1.00を達成する一方、標準的な手法はエクスプロイト率を2〜5桁過小評価します。

🟡 🛡️ セキュリティ 2026年4月16日 · 2 分で読めます

ArXiv:MCPThreatHive——MCPエコシステムセキュリティのための初の自動化プラットフォーム

MCPThreatHiveは、Model Context Protocolエコシステムの脅威インテリジェンスのライフサイクル全体を自動化する新しいオープンソースプラットフォームです。38の特定脅威パターンを持つMCP-38タクソノミーを実用化し、STRIDEおよびOWASPフレームワークにマッピングし、定量的リスクスコアリングシステムを含みます。DEFCON SG 2026で発表されました。

🟡 🛡️ セキュリティ 2026年4月16日 · 3 分で読めます

ArXiv:RePAIRが再訓練なしにLLMに目標情報を「忘れさせる」ことを可能にする

RePAIRは、ユーザーが自然言語プロンプトを通じてリアルタイムで大規模言語モデルに特定の情報を忘れるよう命令できる、新しいインタラクティブな機械的忘却(machine unlearning)フレームワークです。主要なイノベーションであるSTAMP手法は、モデルの再訓練を必要とせず閉形式でMLPの活性化を拒否サブ空間にリダイレクトし、モデルの有用性を維持しながらほぼゼロの忘却スコアを達成します。

← 前日 翌日 →