《大英百科全书》与《韦氏词典》起诉OpenAI涉嫌大规模侵犯版权
《大英百科全书》及其旗下《韦氏词典》已对人工智能公司OpenAI提起诉讼,指控其在未经许可的情况下,大量抓取并使用其拥有的近10万篇在线文章用于训练大型语言模型(LLM),构成“大规模版权侵权”。
诉讼文件指出,OpenAI不仅在训练模型时使用了这些受版权保护的内容,还通过ChatGPT的检索增强生成(RAG)功能,在生成回复时直接引用或部分复制其文章内容,违反了美国版权法。此外,原告指控OpenAI违反《兰ham法案》,即在生成虚假内容(“幻觉”)时错误地将其归因于《大英百科全书》和《韦氏词典》,构成商标侵权。
诉讼还强调,ChatGPT通过生成内容直接替代了传统出版商的内容供给,削弱了《大英百科全书》等在线出版商的收入来源。同时,AI系统产生的不实信息可能损害公众对高质量、可信在线内容的持续获取。
此案并非孤例。此前,《纽约时报》、Ziff Davis(拥有Mashable、CNET、IGN、PC Mag等媒体)以及包括《芝加哥论坛报》《丹佛邮报》《太阳哨兵报》《多伦多星报》和加拿大广播公司(CBC)在内的十余家北美主流媒体,均已对OpenAI提起类似诉讼。
值得注意的是,针对OpenAI的同类诉讼在法律层面尚无明确先例。此前,人工智能公司Anthropic在类似案件中曾被联邦法官William Alsup裁定,使用内容作为训练数据属于“转换性使用”,不构成侵权;但因其非法下载数百万本图书,仍被要求支付15亿美元的集体和解金。
OpenAI未就此次诉讼向TechCrunch作出回应。
编辑点评
此次《大英百科全书》与《韦氏词典》对OpenAI的诉讼,标志着全球出版行业对AI训练数据合法性的集体反击。随着大型语言模型广泛依赖网络内容进行训练,版权归属与数据使用边界问题日益凸显。此案不仅关乎单个出版商的权益,更触及AI产业与传统内容生态之间的结构性矛盾。若法院裁定OpenAI侵权成立,将可能迫使AI公司重新评估数据采集方式,甚至推动建立付费授权机制,从而对全球AI训练成本与内容创作激励机制产生深远影响。同时,案件暴露了当前法律框架在应对AI生成内容“幻觉”与虚假归因问题上的滞后性。从国际视角看,此案或将引发更多国家对AI数据使用规范的立法讨论,特别是在欧盟《人工智能法案》与美国版权法之间形成对比与协调的背景下。长期而言,若AI公司持续依赖未经许可的数据,可能触发更广泛的法律与伦理危机,重塑全球内容生产与消费格局。