自由软件基金会指控Anthropic侵犯版权:呼吁开源大型语言模型训练数据
2024年,Anthropic因在训练大型语言模型(LLM)时涉嫌侵犯版权被起诉。近日,自由软件基金会(FSF)宣布,其持有的版权作品《自由如自由:理查德·斯托曼的自由软件运动》被纳入Anthropic的训练数据。该书由O'Reilly出版,FSF在GNU自由文档许可证(GNU FDL)下持有版权,允许免费使用。
FSF强调,应保障计算自由,要求Anthropic及其他LLM开发者公开完整训练数据、模型、配置及源代码。FSF表示,虽资源有限,但若参与如Bartz v. Anthropic等诉讼,将要求以用户自由作为赔偿。
FSF在公告中声明:‘我们通常不因版权侵权提起诉讼,但若起诉,我们只为自由而战。’此事件引发对人工智能训练数据来源及其版权合规性的广泛讨论。
编辑点评
此事件凸显人工智能发展与知识产权保护之间的深层矛盾。Anthropic作为头部AI企业,其训练数据若包含受版权保护内容,即便遵循开源许可(如GNU FDL),仍可能引发法律争议。FSF的介入不仅是一次版权维权,更是一场关于‘计算自由’的意识形态博弈——其核心诉求是将AI模型及其训练过程置于开源框架下,确保用户对技术的控制权。
从国际视角看,此类纠纷预示着未来AI监管趋势:各国或将在数据使用、版权边界、模型透明度等方面制定更严格规则。欧盟《人工智能法案》、美国《版权法》修订案等均可能成为类似案件的法律依据。同时,企业若坚持闭源模式,或将面临更多来自开源社区的法律与舆论压力。
长远而言,此事件可能推动AI行业形成‘开源训练数据’的新标准,或催生‘合规数据池’等新型基础设施。若主流厂商被迫公开训练数据,将深刻影响AI研发生态,促进技术民主化,但同时也可能加剧数据隐私与商业机密冲突。