Anthropic公司创新性部署AI代理进行模型安全审计

AI安全领域的领军企业Anthropic于7月25日宣布,其已成功开发并部署了一套由自主AI代理组成的“数字免疫系统”,专门用于审计和评估其强大的AI模型(如Claude系列)的安全性。这一创新举措通过“以AI制AI”的前沿理念,为解决日益复杂的AI模型中可能存在的“欺骗性对齐”(deceptive alignment)等深层次安全风险,提供了全新的、可扩展的解决方案。

上一篇:

下一篇:

发表回复

登录后才能评论