AI安全领域的领军企业Anthropic于7月25日宣布,其已成功开发并部署了一套由自主AI代理组成的“数字免疫系统”,专门用于审计和评估其强大的AI模型(如Claude系列)的安全性。这一创新举措通过“以AI制AI”的前沿理念,为解决日益复杂的AI模型中可能存在的“欺骗性对齐”(deceptive alignment)等深层次安全风险,提供了全新的、可扩展的解决方案。
AI安全领域的领军企业Anthropic于7月25日宣布,其已成功开发并部署了一套由自主AI代理组成的“数字免疫系统”,专门用于审计和评估其强大的AI模型(如Claude系列)的安全性。这一创新举措通过“以AI制AI”的前沿理念,为解决日益复杂的AI模型中可能存在的“欺骗性对齐”(deceptive alignment)等深层次安全风险,提供了全新的、可扩展的解决方案。