亚马逊计划召开内部技术会议应对AI相关系统故障
亚马逊将于2026年3月10日召开“零售技术周会”(TWiST),对近期频发的系统中断事件进行深入调查,其中包括与AI辅助编码错误相关的故障。
首席技术官戴夫·特雷德威尔在内部备忘录中指出,过去一周内公司发生了四起严重(Sev 1)系统中断事件,影响网站和应用的可用性。他承认生成式AI工具在生产变更中加速了操作,但缺乏充分的安全规范,导致风险上升。
亚马逊计划加强审查机制,要求资深工程师审核初级员工的AI辅助变更,并引入临时安全措施以控制关键系统变更风险。特雷德威尔表示,公司将同时投资于更持久的解决方案,包括确定性与代理式安全防护机制。
尽管亚马逊云服务(AWS)未涉及此次零售系统问题,但其在2025年12月也曾因AI工具Kiro的误用导致服务中断。公司当时称故障源于“用户错误”而非AI本身。
公司预计2026年资本支出达2000亿美元,以支持AI基础设施扩张,同时持续进行裁员,2026年1月已裁减约16,000名员工。
亚马逊在2025年第四季度曾出现长达六小时的网站和应用故障,用户无法完成结账、查看账户信息或商品价格,公司归因于“软件代码部署”问题。
公司发言人表示,TWiST是例行周会,用于审查零售运营表现,此次会议将正常包含网站及应用可用性审查内容,以持续改进服务。
编辑点评
此次亚马逊系统故障及内部应对措施揭示了科技巨头在AI大规模应用过程中面临的治理挑战。生成式AI工具在提升开发效率的同时,因缺乏统一安全规范和审查机制,可能引发生产环境重大风险。特雷德威尔承认‘AI辅助变更’是近期故障的促成因素,反映出行业在AI与生产系统融合过程中仍处于摸索阶段。亚马逊的应对策略——引入临时摩擦机制与长期安全架构并行——是当前科技企业应对AI风险的典型模式,具有广泛借鉴意义。
从全球科技行业视角看,AI基础设施投入与人力削减并行,凸显了企业降本增效与技术升级的矛盾。亚马逊2026年2000亿美元资本支出计划,远超同行,显示其在AI竞争中的战略决心,但频繁系统中断或影响用户信任,尤其在电商和云服务领域。AWS虽未直接卷入此次零售故障,但其在2025年12月的Kiro工具事件提示,AI工具在云服务核心环节的潜在风险同样不容忽视。
长期来看,此次事件可能推动行业制定更严格的AI开发安全标准,特别是在金融、零售、医疗等关键领域。企业需在创新效率与系统稳定性之间取得平衡,而监管机构或需介入,建立AI辅助开发的合规框架,以避免类似事故频发,维护数字基础设施的可靠性。