# AI训练数据

倒闭初创企业出售旧Slack聊天记录和邮件给AI公司

多家已关闭的初创企业正将过往的Slack聊天记录、内部邮件及项目管理数据出售给人工智能公司，作为AI模型训练数据。Cielo24前CEO Shanna Johnson表示，公司出售所有内部数据获得数十万美元收入。提供关闭服务的SimpleClosure公司称，过去一年已处理100起类似交易，单笔金额在1万至10万美元之间。该趋势引发隐私担忧，AI与数字政策中心创始人Marc Rotenberg指出，这些数据包含可识别个人身份的信息，员工隐私面临重大风险。

2026-04-18 20:03

互联网最强大存档工具面临危机

互联网档案馆（Internet Archive）的Wayback Machine因被多家主流媒体机构限制存档而面临挑战。包括《今日美国》、《纽约时报》和《卫报》在内的23家主流新闻网站已阻止其爬虫访问，部分媒体则通过技术手段限制访问。此举引发记者和倡导组织关注，超过100名记者联署支持Wayback Machine，称其在事实核查、历史研究和工会组织等方面不可或缺。尽管部分媒体以防止AI公司滥用内容为由进行限制，但该工具在监督报道和司法证据中的关键作用不可替代。若持续失去主要新闻源访问权限，数字历史记录可能面临永久性丢失风险。

2026-04-13 20:04

AI数据训练初创公司Mercor遭遇数据泄露事件，估值与业务面临挑战

估值100亿美元的AI数据训练初创公司Mercor于3月31日承认遭遇数据泄露，黑客声称窃取4TB数据，包括候选人资料、个人身份信息、雇主数据、源代码及API密钥。公司称事件源于开源工具LiteLLM遭植入凭证窃取恶意软件，导致连锁攻击。Meta已暂停与其合作，OpenAI正在调查但未终止合同。五家承包商已提起诉讼，部分诉讼将LiteLLM及AI合规公司Delve列为被告。Delve此前被指控伪造安全认证数据，已被Y Combinator断绝关系。Mercor此前年化收入有望超10亿美元，目前业务前景不明。

2026-04-10 04:03

Meta面临版权侵权诉讼：法院允许作者追加“共同侵权”指控

美国法院裁定，作家集体诉讼案中可追加“共同侵权”指控，指控Meta通过BitTorrent协议下载AI训练数据时，因上传种子文件而构成版权侵权。该指控门槛低于“直接分发”指控，对Meta构成更大法律压力。Meta试图援引美国最高法院近期关于ISP不承担版权责任的裁决进行抗辩，但法官批评原告律师拖延诉讼策略，称其“过度攻击Meta”而非聚焦法律论证。由于两起案件发现程序已关联，法院最终允许追加指控，但强调此举“勉强同意”。Meta正准备提交补充文件，以最高法院裁决为依据争取驳回诉讼。

2026-03-31 04:05

法官允许作者对Meta提出BitTorrent“做种”侵权指控尽管律师辩解被批‘荒谬’

美国联邦法官查布里亚（Judge Chhabria）裁定，允许多位作家在诉讼中新增指控，指Meta通过BitTorrent协议从Anna's Archive等“影子图书馆”下载盗版书籍，并在“做种”过程中构成共同侵权。尽管原告律师以“新证据浮现”为由解释为何迟至2026年3月才提出该指控，但法官斥其为“荒谬借口”和“双重话术”，并指出该指控本应于2024年11月修改诉状时一并提出。法官批评原告律所Boies Schiller存在长期回避自身失误、转而攻击Meta的倾向，但仍批准了补充诉状。目前案件进入第四次修订起诉阶段，新增三家贷款公司作为原告，BitTorrent相关指控持续增加。

2026-03-31 03:04

大英百科全书起诉OpenAI涉嫌盗用内容训练ChatGPT

大英百科全书与韦氏词典出版社于2026年3月17日联合起诉OpenAI，指控其在训练AI模型（如GPT-4）过程中未经授权大量复制其受版权保护的内容，并生成与原始文本高度相似的回应。诉讼称，GPT-4已‘记忆’大量百科内容，可按需输出几乎逐字复制的段落，构成非法复制。此外，双方指控OpenAI通过AI生成内容直接替代其网站内容，削弱其流量。此案是近年来出版商对AI公司发起的一系列版权诉讼之一，此前《纽约时报》亦有类似指控，Anthropic亦曾因使用受版权保护书籍训练模型而支付15亿美元和解金。

2026-03-17 10:32

《大英百科全书》与《韦氏词典》起诉OpenAI涉嫌大规模侵犯版权

《大英百科全书》及其旗下《韦氏词典》对OpenAI提起诉讼，指控其在未经许可的情况下大量抓取并使用约10万篇在线文章训练大型语言模型，构成版权侵权。诉讼还指出，ChatGPT在生成内容时直接复制或部分复制其文章，并在检索增强生成（RAG）流程中使用其内容，违反版权法及《兰ham法案》。此外，原告称ChatGPT的“幻觉”内容错误归因于其品牌，损害声誉，并通过替代性内容削弱了出版商的收入来源。此案是多家媒体机构起诉OpenAI版权问题的一部分，包括《纽约时报》、Ziff Davis及多家北美主流媒体。OpenAI未就此事发表评论。目前尚无明确法律先例界定训练AI是否构成侵权，但此前Anth...

2026-03-17 10:30

大英百科全书起诉OpenAI侵犯版权与商标权

大英百科全书（Encyclopedia Britannica）已对OpenAI提起诉讼，指控其在训练人工智能模型时非法使用了近10万篇受版权保护的文章，并在ChatGPT等工具生成的内容中直接复制或错误归因于大英百科全书。诉讼还指控OpenAI存在商标侵权行为，称其生成的虚假内容（即“幻觉”）被错误归于大英百科全书，导致用户流量被分流至OpenAI平台，损害了大英百科全书及梅里亚姆-韦伯斯特（Merriam-Webster）等权威资源的商业利益。大英百科全书未提出具体赔偿金额，但要求法院下达禁令，阻止OpenAI继续此类行为。

2026-03-17 10:23

AI训练数据行业兴起：高学历劳动者陷入零工经济困局

随着人工智能技术发展，全球兴起大量AI训练数据生产平台，如Mercor、Scale AI和Surge AI，这些公司雇佣数万名高学历专业人士，包括律师、作家、科学家和教师，为AI模型提供训练数据。然而，这些工作具有高度不稳定性，任务突然暂停、薪酬降低、工作时间被严密监控，且工人常被突然解雇。尽管部分工人月收入可观，但普遍面临心理压力、家庭疏离和职业前景黯淡问题。行业内部存在严重保密协议，工人无法组织工会或集体谈判，形成类似Uber的零工经济模式，引发法律诉讼和对劳动权益的担忧。

2026-03-10 17:04

马斯克旗下xAI未能阻止加州AI训练数据披露法案

美国法官于2026年3月6日驳回了马斯克旗下xAI公司申请的初步禁令请求，裁定其无法证明加州AB 2013法案将披露其贸易秘密。该法案要求AI企业在加州境内公开其模型训练数据来源、收集时间、是否包含受版权保护内容及个人数据等信息。xAI称此披露将使其技术优势丧失，甚至“经济毁灭”，但法官耶稣·贝纳尔指出，xAI未能提供具体证据证明其数据具有独特性或清洁方法具有专有性，且公众有权了解训练数据以评估AI模型质量。该裁决意味着xAI必须在诉讼期间遵守法案，同时面临与OpenAI的多起法律纠纷。加州司法部称此为“关键胜利”，将坚持捍卫该法案。

2026-03-07 05:07