← 返回

互联网最强大存档工具面临危机

互联网档案馆(Internet Archive)的Wayback Machine因被多家主流媒体机构限制存档而面临挑战。包括《今日美国》、《纽约时报》和《卫报》在内的23家主流新闻网站已阻止其爬虫访问,部分媒体则通过技术手段限制访问。此举引发记者和倡导组织关注,超过100名记者联署支持Wayback Machine,称其在事实核查、历史研究和工会组织等方面不可或缺。尽管部分媒体以防止AI公司滥用内容为由进行限制,但该工具在监督报道和司法证据中的关键作用不可替代。若持续失去主要新闻源访问权限,数字历史记录可能面临永久性丢失风险。

互联网最强大存档工具面临危机

本月,《今日美国》发布一篇深度报道,揭露美国移民与海关执法局(ICE)延迟披露其拘留政策影响数据的情况。报道团队利用互联网档案馆Wayback Machine,对ICE网站历史数据进行追踪分析,揭示其在特朗普政府时期政策变化。这一案例是Wayback Machine服务公共利益的众多实例之一。然而,互联网档案馆主任马克·格雷厄姆(Mark Graham)表示,此举“略带讽刺”——《今日美国》母公司禁止Wayback Machine存档其内容,却依赖该工具进行调查。

据人工智能检测初创公司Originality AI分析,目前已有23家主流新闻网站阻止ia_archiverbot(互联网档案馆常用爬虫)访问。《纽约时报》、Reddit及《卫报》均采取类似措施。其中,《卫报》虽未完全屏蔽爬虫,但排除其内容在互联网档案馆API中的显示,并在Wayback Machine界面过滤文章,增加公众获取难度。

《今日美国》发言人Lark-Marie Anton称,此举并非针对互联网档案馆,而是其整体反爬虫策略的一部分。《卫报》业务与许可总监罗伯特·汉恩(Robert Hahn)则表示,担忧AI公司可能滥用存档内容进行训练。《纽约时报》发言人格雷厄姆·詹姆斯(Graham James)称,其内容被用于AI训练“违反版权法”,直接与报社竞争,但未澄清是否确有发生。

记者群体对此趋势提出抗议。电子前沿基金会(EFF)和Fight for the Future等组织联合发起倡议,收集超过100名记者签名支持Wayback Machine。签名者包括电视主持人雷切尔·马多(Rachel Maddow)及独立记者卡特·滕巴格(Kat Tenbarge)等。信中指出,传统纸质档案因报纸停刊、公共图书馆无力保存数字内容而衰落,保护新闻记录的责任日益落在互联网档案馆肩上。

记者劳拉·弗林(Laura Flynn)称,该工具在其职业生涯中是“必不可少”的,用于事实核查和音频资料获取。《芝加哥读者》记者米科·卡波拉莱(Micco Caporale)亦表示,其在工会组织工作中,通过Wayback Machine查找旧职位描述,对比实际职责与招聘承诺,并追踪薪酬变化。

媒体限制存档的主要理由是防止AI公司非法利用内容训练模型。美国已发生逾百起AI版权诉讼,聚焦于未经授权使用网络内容。Wayback Machine庞大的数据集使其成为AI训练的高价值来源。

互联网档案馆成立30年,已存档超万亿网页。尽管2020年后经历多起法律纠纷,包括与多家音乐出版商就“Great 78s”项目达成和解,但当前主要威胁来自媒体机构的封锁。若持续失去主流新闻源访问权限,其保护数字历史的使命将严重受挫,早期数字记录可能永久失传。

值得注意的是,Wayback Machine曾揭露《纽约时报》2016年对伯尼·桑德斯报道的编辑修改。若今日类似情况发生,监督性媒体将难以追溯历史版本。该工具在司法诉讼中亦常被引用为证据。互联网档案馆主任格雷厄姆表示,目前正与《纽约时报》等媒体沟通,但“无可否认,越来越多公共网络内容被封锁,正削弱社会理解世界的能力。”

编辑点评

此事件凸显数字时代信息存档与版权保护之间的深层矛盾。Wayback Machine作为全球最权威的网络历史存档工具,其面临封锁不仅关乎新闻透明度,更触及公共记忆的保存机制。当主流媒体以AI侵权为由限制存档时,实质上是在挑战数字时代“信息为公共财产”的基本原则。这种限制可能削弱监督性新闻报道能力,影响司法证据链完整性,长远来看将导致数字历史的“选择性失忆”。

从国际视角看,此事反映了全球媒体与科技企业间日益紧张的版权博弈。美国作为数字内容生产中心,其新闻机构的决策具有示范效应,可能影响其他发达国家的类似政策。若主流媒体广泛封锁Wayback Machine,将迫使学者、记者和公众转向更不可靠的私人存档或付费数据库,加剧信息获取不平等,削弱民主社会的知情权基础。

此外,AI训练数据的合法性争议是推动此次封锁的核心动因。尽管媒体担忧AI公司未经授权使用内容,但Wayback Machine的存档本质是为公共利益服务,而非商业用途。当前法律框架尚不完善,如何界定“合理使用”与“侵权”成为关键。未来可能需要建立专门的“数字记忆保护法”或建立公共许可机制,以平衡版权保护与公共存档需求。

长远而言,若Wayback Machine功能持续受限,全球将面临“数字历史断层”的风险。特别是在政治敏感事件、气候变化记录或公共卫生危机等关键领域,缺乏可追溯的历史数据将破坏问责机制。这不仅影响新闻舆论监督,更可能削弱国际社会对重大事件的共识基础。

相关消息:https://www.wired.com/story/the-internets-most-powerful-archiving-tool-is-in-mortal-peril/
当日日报:查看 2026年04月13日 当日日报