Anthropic公司创新性部署AI代理进行模型安全审计

AI安全领域的领军企业Anthropic于7月25日宣布，其已成功开发并部署了一套由自主AI代理组成的“数字免疫系统”，专门用于审计和评估其强大的AI模型（如Claude系列）的安全性。这一创新举措通过“以AI制AI”的前沿理念，为解决日益复杂的AI模型中可能存在的“欺骗性对齐”（deceptive alignment）等深层次安全风险，提供了全新的、可扩展的解决方案。