五大出版商及作家起诉Meta涉嫌AI训练中抄袭版权内容
Meta公司正面临由麦克米伦、麦格劳希尔、爱思唯尔、哈切特、康泰格等五家大型出版商及作家斯科特·图罗联合发起的集体诉讼。诉讼指控Meta在训练其Llama人工智能模型时,大量未经授权复制书籍和期刊文章,包括从LibGen、Anna’s Archive、Sci-Hub等盗版网站获取内容,并利用包含大量非法复制作品的Common Crawl数据集进行训练。
原告称,Meta“重复复制”其受版权保护的书籍和学术文章,构成“历史上最严重的版权侵权行为之一”。诉讼特别指出,Llama模型在输入提示后,会逐字或近逐字输出受版权保护的原文内容。例如,当输入詹姆斯·斯图尔特所着《微积分:早期超越》第9版中的两句话时,Llama模型即开始逐字复制后续内容。
诉讼还指出,Meta明知所使用的数据集包含盗版内容,却仍将其用于训练。此前,多名作者已就类似问题起诉Meta,其中一案去年由联邦法官裁定Meta胜诉,但法官同时强调,该裁决“不意味着Meta使用版权材料训练AI模型合法”。
Meta发言人戴夫·阿诺德回应称,AI训练使用版权材料属于合理使用,公司“将坚决抗辩”。此案与此前Anthropic公司因类似指控支付15亿美元和解费形成对比,凸显AI训练数据合法性问题的复杂性。
原告要求法院裁定Meta停止非法行为,并要求其提供用于训练Llama模型的所有版权作品清单。
编辑点评
此次诉讼标志着全球AI产业面临的关键法律挑战之一:训练数据的版权边界。Meta作为全球AI技术领导者,其Llama模型的训练方式直接关系到AI行业的合规路径。若法院认定Meta行为违法,可能引发连锁反应,迫使整个行业重新评估数据采集合法性,尤其对依赖公开网络爬取数据的模型开发形成重大冲击。同时,此案亦反映出版业与科技业在数字时代的价值冲突——传统版权保护与AI创新需求之间的张力持续加剧。从国际视角看,美国司法系统对AI版权问题的裁决将影响欧盟、中国等主要经济体的立法方向。若Meta败诉,可能推动全球范围内对AI训练数据来源的更严格监管,从而重塑AI技术的开发范式。长远来看,此案或促使AI公司与内容创作者建立更透明的合作机制,例如数据授权协议或补偿机制。