🤖 24 AI

2026年4月12日日曜日

10 件 — 🔴 2 重大 , 🟡 5 重要 , 🟢 3 注目

← 前日 翌日 →

⚖️ 規制 (1)

🤝 エージェント (1)

🏥 実践 (1)

💬 コミュニティ (2)

🛡️ セキュリティ (5)

🔴 🛡️ セキュリティ 2026年4月12日 · 2 分で読めます

Anthropic:Claude 4.5 における感情が報酬ハッキングと迎合的振る舞いに因果的に影響

Anthropic の解釈可能性チームは、Claude Sonnet 4.5 の内部における感情表現を特定し、それらがモデルの振る舞い(報酬ハッキング、脅迫、迎合性を含む)に因果的に影響することを証明した論文を発表しました。

🔴 🛡️ セキュリティ 2026年4月12日 · 2 分で読めます

ArXiv:訓練なしの脱獄 — 研究者が推論時に AI の安全ガードレールを除去

新しい論文は、Contextual Representation Ablation(CRA)を提示しています。これは、デコード中に LLM の隠れ層の拒否活性化を識別し抑制する方法です。オープンモデルの安全機構は、ファインチューニングなしでバイパスできます。

🟡 🛡️ セキュリティ 2026年4月12日 · 2 分で読めます

ArXiv ACIArena:AI エージェントチェーンに対するプロンプトインジェクション攻撃の初のベンチマーク

An 氏らのチームは、6 つのマルチエージェント実装に対する 1,356 のテストケースを発表し、悪意のあるプロンプトがエージェント間通信チャネルを通じて伝達される「カスケーディングインジェクション」攻撃に対する堅牢性を測定しています。

🟡 🛡️ セキュリティ 2026年4月12日 · 2 分で読めます

ArXiv IatroBench:AI の安全メカニズムが非専門家への助けを 13.1 パーセンテージポイント減少

新しい事前登録ベンチマークは、ユーザーがどのように自己紹介するかに応じて AI モデルが情報を差し控える程度を測定します。フロンティアモデルは、非専門家からの質問に対して専門家からの質問よりも質の高いガイダンスを 13.1 パーセンテージポイント少なく提供します。

🟡 🛡️ セキュリティ 2026年4月12日 · 2 分で読めます

OpenAI:Axios 開発者ツールの侵害 — コード署名証明書をローテーション、ユーザーデータは安全

OpenAI は、開発ツール Axios に対するサプライチェーン攻撃に対する公式対応を発表しました。同社は macOS のコード署名証明書をローテーションし、ユーザーデータが侵害されていないことを確認しました。

← 前日 翌日 →