OpenZeppelin指出EVMbench数据集存在训练数据泄露问题

2026-03-03 13:03

区块链安全公司OpenZeppelin在对OpenAI与加密投资机构Paradigm合作推出的AI安全基准EVMbench进行审计后，发现其数据集存在方法论缺陷和数据污染问题。EVMbench旨在评估AI模型识别、修复和利用智能合约漏洞的能力，于2月上旬发布。OpenZeppelin指出，部分高危漏洞被错误分类，至少四项标为高严重性的漏洞实际上不可利用。此外，由于基准数据源自2024年至2025年中120份审计报告，而AI模型训练截止时间为2025年中，导致模型可能在预训练阶段已接触过测试题，从而削弱测试有效性。OpenZeppelin强调，AI将重塑智能合约安全，但评估基准必须与被保护...

OpenZeppelin指出EVMbench数据集存在训练数据泄露问题

区块链安全公司OpenZeppelin在对OpenAI与加密投资机构Paradigm合作推出的AI安全基准EVMbench进行审计后，发现其数据集存在方法论缺陷和数据污染问题。EVMbench旨在评估AI模型识别、修复和利用智能合约漏洞的能力，于2月上旬发布。

OpenZeppelin在X平台发布的声明中表示，其对EVMbench进行了与审计Aave、Lido、Uniswap等主流DeFi协议相同的严格审查。审计发现两大核心问题：一是训练数据污染，二是高危漏洞分类错误。

在训练数据污染方面，EVMbench测试数据基于2024年至2025年中120份审计报告，而参与测试的AI模型训练截止时间普遍为2025年中。OpenZeppelin指出，排名靠前的AI模型（如Anthropic的Claude Open 4.6、OpenAI的OC-GPT-5.2、Google的Gemini 3 Pro）很可能在预训练阶段已接触过基准中的漏洞报告，从而在测试中具备“记忆优势”，削弱了测试对模型“发现新漏洞”能力的评估有效性。

此外，OpenZeppelin发现至少四项被EVMbench标记为“高严重性”的漏洞实际上不可利用。这些漏洞的描述性攻击方法在实际环境中无法执行，但AI模型在识别这些漏洞时仍被判定为正确。公司强调，这不是主观严重性判断差异，而是“描述的攻击路径根本无法奏效”的事实性错误。

OpenZeppelin重申，AI将在提升区块链安全方面发挥重要作用，但必须确保评估基准与智能合约本身一样受到严格审查。公司指出：“问题不在于AI是否会改变智能合约安全——它会。真正的问题在于，我们用于构建和评估这些工具的数据和基准，是否达到了与被保护合约同等的严谨标准。”

EVMbench测试过程中，AI模型被切断互联网访问，以防止其搜索解决方案，但数据污染问题依然存在，且数据集规模有限，进一步放大了该问题的影响。

编辑点评

编

编辑点评

2026-03-03 13:03

此次OpenZeppelin对EVMbench的审计揭示了AI安全评估领域一个深层次矛盾：当评估基准本身存在数据污染和分类错误时，其结果的可信度将大打折扣。尽管AI在智能合约安全中的潜力巨大，但若评估体系缺乏严谨性，可能导致技术误判和资源错配。从全球视角看，这一事件凸显了AI在金融与区块链等高风险领域应用时，必须建立与之匹配的标准化、透明化、可验证的测试框架。若不解决数据污染与分类失真问题，AI安全工具可能沦为‘纸上谈兵’，甚至可能被用于制造虚假安全幻觉。未来，行业或需推动建立由独立第三方主导的AI安全基准认证机制，以确保技术发展与风险控制同步。该事件对全球AI监管与技术伦理讨论具有重要启示意义，尤其是在金融和去中心化系统中，数据完整性与测试公信力直接关系到系统信任基础。

OpenZeppelin指出EVMbench数据集存在训练数据泄露问题

编辑点评

相关阅读

去中心化金融领域遭多起黑客攻击 两周内12个协议受袭

红杉资本新基金募资70亿美元 加码人工智能投资

OpenAI推出Codex重大更新 直接对标Anthropic的Claude Code

OpenAI推出升级版Codex 与Anthropic展开AI编程工具竞争

马斯克诉奥尔特曼案即将开庭 开AI创始使命之争

去中心化金融领域遭多起黑客攻击两周内12个协议受袭

红杉资本新基金募资70亿美元加码人工智能投资

OpenAI推出Codex重大更新直接对标Anthropic的Claude Code

马斯克诉奥尔特曼案即将开庭开AI创始使命之争