OpenZeppelin指出EVMbench数据集存在训练数据泄露问题
区块链安全公司OpenZeppelin在对OpenAI与加密投资机构Paradigm合作推出的AI安全基准EVMbench进行审计后,发现其数据集存在方法论缺陷和数据污染问题。EVMbench旨在评估AI模型识别、修复和利用智能合约漏洞的能力,于2月上旬发布。
OpenZeppelin在X平台发布的声明中表示,其对EVMbench进行了与审计Aave、Lido、Uniswap等主流DeFi协议相同的严格审查。审计发现两大核心问题:一是训练数据污染,二是高危漏洞分类错误。
在训练数据污染方面,EVMbench测试数据基于2024年至2025年中120份审计报告,而参与测试的AI模型训练截止时间普遍为2025年中。OpenZeppelin指出,排名靠前的AI模型(如Anthropic的Claude Open 4.6、OpenAI的OC-GPT-5.2、Google的Gemini 3 Pro)很可能在预训练阶段已接触过基准中的漏洞报告,从而在测试中具备“记忆优势”,削弱了测试对模型“发现新漏洞”能力的评估有效性。
此外,OpenZeppelin发现至少四项被EVMbench标记为“高严重性”的漏洞实际上不可利用。这些漏洞的描述性攻击方法在实际环境中无法执行,但AI模型在识别这些漏洞时仍被判定为正确。公司强调,这不是主观严重性判断差异,而是“描述的攻击路径根本无法奏效”的事实性错误。
OpenZeppelin重申,AI将在提升区块链安全方面发挥重要作用,但必须确保评估基准与智能合约本身一样受到严格审查。公司指出:“问题不在于AI是否会改变智能合约安全——它会。真正的问题在于,我们用于构建和评估这些工具的数据和基准,是否达到了与被保护合约同等的严谨标准。”
EVMbench测试过程中,AI模型被切断互联网访问,以防止其搜索解决方案,但数据污染问题依然存在,且数据集规模有限,进一步放大了该问题的影响。
编辑点评
此次OpenZeppelin对EVMbench的审计揭示了AI安全评估领域一个深层次矛盾:当评估基准本身存在数据污染和分类错误时,其结果的可信度将大打折扣。尽管AI在智能合约安全中的潜力巨大,但若评估体系缺乏严谨性,可能导致技术误判和资源错配。从全球视角看,这一事件凸显了AI在金融与区块链等高风险领域应用时,必须建立与之匹配的标准化、透明化、可验证的测试框架。若不解决数据污染与分类失真问题,AI安全工具可能沦为‘纸上谈兵’,甚至可能被用于制造虚假安全幻觉。未来,行业或需推动建立由独立第三方主导的AI安全基准认证机制,以确保技术发展与风险控制同步。该事件对全球AI监管与技术伦理讨论具有重要启示意义,尤其是在金融和去中心化系统中,数据完整性与测试公信力直接关系到系统信任基础。