🤖 24 AI

2026年4月16日星期四

17 条新闻 — 🔴 2 重要 , 🟡 10 值得关注 , 🟢 5 有趣

← 前一天 后一天 →

🤖 模型 (2)

📦 开源 (1)

⚖️ 监管 (1)

🤝 智能体 (3)

🔧 硬件 (2)

🏥 实践应用 (2)

💬 社区 (1)

🛡️ 安全 (5)

🔴 🛡️ 安全 2026年4月16日 · 2 分钟阅读

ArXiv:MemJack——多智能体攻击以高达90%的成功率突破视觉语言模型防护

MemJack是一种针对视觉语言模型(VLM)的新型越狱攻击框架,采用多智能体协同协作,而非传统的像素扰动方法。在未经修改的COCO图像上测试,对Qwen3-VL-Plus的攻击成功率达71.48%,扩大计算预算后可提升至90%。研究人员宣布将公开发布超过113,000条交互式攻击轨迹,供防御性研究使用。

🔴 🛡️ 安全 2026年4月16日 · 2 分钟阅读

OpenAI:「Trusted Access for Cyber」计划投入1000万美元支持全球网络防御

OpenAI启动了「Trusted Access for Cyber」计划,将顶级安全组织和企业用户聚集在专用模型GPT-5.4-Cyber周围。该计划包含1000万美元的API资助,专门用于加强全球网络防御,OpenAI由此将自身定位为安全生态系统中的积极参与者。

🟡 🛡️ 安全 2026年4月16日 · 2 分钟阅读

EleutherAI:新方法在奖励黑客行为可见之前便将其检测出来

EleutherAI发布了关于「推理插值」方法的研究,该方法可检测强化学习系统中奖励黑客行为的早期迹象。该技术利用重要性采样和微调的捐赠模型来预测未来的利用模式,AUC达到1.00,而标准方法对利用率的低估幅度高达2至5个数量级。

🟡 🛡️ 安全 2026年4月16日 · 2 分钟阅读

ArXiv:MCPThreatHive——首个用于MCP生态系统安全的自动化平台

MCPThreatHive是一个新的开源平台,可自动化Model Context Protocol生态系统威胁情报的完整生命周期。该平台将MCP-38分类法(含38种特定威胁模式)付诸实践,将其映射到STRIDE和OWASP框架,并包含定量风险评分系统。该平台在DEFCON SG 2026上发布。

🟡 🛡️ 安全 2026年4月16日 · 2 分钟阅读

ArXiv:RePAIR让大语言模型无需重新训练即可「遗忘」目标信息

RePAIR是一种新型交互式机器遗忘(machine unlearning)框架,允许用户通过自然语言提示实时指示大语言模型遗忘特定信息。核心创新STAMP方法通过闭合公式将MLP激活重定向至拒绝子空间,无需重新训练模型,在保留模型实用性的同时实现接近零的遗忘分数。

← 前一天 后一天 →