苹果被指非法抓取数百万YouTube视频用于AI训练
美国科技公司苹果被指控绕过YouTube的反抓取保护机制,下载并使用数百万条YouTube视频训练其AI模型。原告Ted Entertainment、Matt Fisher和Golfholics在一份拟议的集体诉讼中称,苹果研究人员在2024年底发表的研究中使用名为Panda-70M的数据集,该数据集包含YouTube视频的链接及时间戳,苹果据此抓取视频片段进行AI训练。
根据诉讼文件,Panda-70M数据集充当“地图或索引”,通过URL、视频标识符和时间戳定位特定视频片段。每个片段的提取均需独立访问原始视频并提取指定部分,这一过程构成对YouTube保护机制的独立规避行为。原告声称其内容在数据集中出现超过500次,并寻求代表“所有情况类似者”提起集体诉讼。
原告主张,尽管数据集仅提供链接,但苹果实际下载并使用了视频内容用于AI训练,涉嫌侵犯版权。诉讼请求包括:将此案认定为集体诉讼、宣布苹果故意规避YouTube版权保护系统、请求法定赔偿(每项侵权最高限额)、禁令救济、律师费及利息等。
此外,原告已对亚马逊和OpenAI提起类似集体诉讼,指控这两家公司同样使用Panda-70M数据集训练AI模型。
此案引发对AI训练数据来源合法性的广泛关注,涉及版权、数据抓取与科技公司责任边界等关键议题。
编辑点评
此事件凸显AI发展与版权保护之间的深层矛盾。科技巨头在训练大型模型时依赖海量数据,而现有法律框架对‘数据抓取’与‘版权侵权’的界定尚不清晰。苹果、亚马逊和OpenAI均被指控使用同一数据集,说明该问题具有行业普遍性,可能推动美国乃至全球对AI数据合规监管的加强。
从国际影响看,此案若升级为大规模诉讼,将重塑AI训练数据的获取标准,可能迫使企业转向授权数据或自建数据池,从而影响全球AI研发成本与速度。同时,YouTube等平台或借此强化技术防护,限制非授权数据抓取,进而改变内容分发生态。
长远来看,此案或成为界定AI与版权法关系的标志性案例,为未来各国制定AI治理框架提供司法参考。若法院支持原告主张,将形成对AI公司数据使用的重大约束,推动行业建立更透明、合规的数据使用机制。