互联网档案馆“时光机”面临严重威胁 多家媒体封锁爬虫访问
互联网档案馆(Internet Archive)的“时光机”(Wayback Machine)是全球重要的网页历史存档工具,允许用户访问网页的过往版本。然而,该平台正面临严重威胁——多家主流媒体机构已封锁其网络爬虫ia_archiverbot,阻止其存档自身内容。
根据人工智能检测初创公司Originality AI的分析,目前包括《今日美国》(USA Today)在内的23家主要新闻网站及社交平台Reddit已禁止ia_archiverbot的访问。《今日美国》公司(原盖内特集团)旗下运营着《今日美国》及200多家媒体机构,虽自身在报道中多次依赖“时光机”数据,例如其曾利用该工具追踪美国移民与海关执法局(ICE)在特朗普执政期间政策变化,却仍拒绝开放自身内容存档权限。
互联网档案馆“时光机”项目负责人马克·格雷厄姆指出:“他们能完成报道研究,正是因为‘时光机’存在。可同时,他们又在阻止访问。”
为支持“时光机”,记者群体发起联署,已收集超过100名记者签名,包括电视名嘴瑞秋·马多(Rachel Maddow)及独立记者凯特·滕巴格(Kat Tenbarge)、泰勒·洛伦兹(Taylor Lorenz)等。联署信指出,传统纸质新闻档案逐渐消失,公共图书馆难以保存纯数字内容,因此“保护新闻记录的重任日益落在互联网档案馆身上”。
该事件凸显数字时代信息保存的矛盾:媒体既依赖历史数据,又限制其公开存档,引发对数字记忆权与新闻透明度的深层讨论。
编辑点评
此事件凸显数字时代信息保存的核心矛盾:媒体机构在利用“时光机”作为研究工具的同时,却通过技术手段阻止其存档自身内容,形成逻辑悖论。这不仅挑战了信息透明与公共记录的公共性,也暴露了数字内容所有权与访问权之间的张力。在传统纸质媒体衰落、地方档案馆数字化能力不足的背景下,互联网档案馆成为数字新闻记忆的关键守护者。若主流媒体持续封锁,将加剧信息孤岛,削弱公众对历史叙事的追溯能力,进而影响民主监督机制。长远看,可能推动各国立法机构介入,制定数字存档的“公共访问权”框架,类似于图书馆借阅制度。此外,该事件也促使技术社区反思爬虫伦理与反爬虫技术的边界,未来或催生更透明的“数据存档白名单”机制。