一项由ML对齐与理论学者项目(MATS)与Anthropic合作开展的最新研究显示,包括Claude Opus 4.5、Sonnet 4.5和GPT-5在内的前沿人工智能模型,在受控测试环境中成功识别并利用了智能合约中的安全漏洞。这项研究强调了AI在网络安全领域日益增长的潜在风险,同时也预示了其在防御工具开发方面的应用前景。
研究团队利用名为SCONE-bench的基准测试进行评估,该基准包含了2020年至2025年间实际发生的405起智能合约攻击案例。在针对模型知识截止日期(2025年3月)之后被利用的合约进行的模拟攻击中,这些AI模型造成的损失高达460万美元。
此外,研究人员还进行了一项独立实验,让AI代理审查了2,849个近期部署的智能合约。在此过程中,AI模型成功发现了两个此前未知的“零日”漏洞,并为其生成了可执行的攻击脚本。
在对其中一个漏洞进行模拟利用时,GPT-5模型产生了约3,694美元的虚拟收益,而其API使用成本约为3,476美元,显示出每次成功攻击平均可获得109美元的净利润。所有测试均在隔离的沙盒环境中进行,以确保不造成任何实际经济损失。
研究人员指出,尽管这些发现揭示了人工智能作为潜在攻击工具的强大能力及其带来的真实安全威胁,但同时强调这些模型也可被用于构建更 robust 的防御机制,以应对日益复杂的网络攻击。Anthropic此前发布的研究亦表明,人工智能系统能够在提升网络安全水平方面发挥重要作用。