← 返回

谷歌AI搜索结果每小时生成数百万错误答案 新研究揭示事实准确性问题

据《纽约时报》与初创公司Oumi联合进行的测试显示,谷歌AI Overviews在回答问题时准确率约为90%,意味着每10个答案中约有1个错误。该测试基于OpenAI发布的SimpleQA基准,包含超过4000个可验证问题。数据显示,AI Overviews每日生成数千万个错误答案。尽管准确率在Gemini 3更新后从85%提升至91%,但错误仍普遍存在,例如在回答鲍勃·马利故居成为博物馆的时间和马友友入选古典音乐名人堂等问题时出现事实性错误。该研究引发对AI生成内容可信度的广泛担忧。

谷歌AI搜索结果每小时生成数百万错误答案 新研究揭示事实准确性问题

《纽约时报》与初创公司Oumi联合开展的一项分析显示,谷歌AI Overviews在回答用户查询时准确率约为90%,即每10个答案中约有1个错误。该测试基于OpenAI于2024年发布的SimpleQA基准,包含超过4000个具有可验证答案的问题,用于评估生成式模型如Gemini事实准确性

测试始于2023年,当时Gemini 2.5模型准确率为85%。在Gemini 3更新后,准确率提升至91%。但即便如此,若将错误率外推至谷歌每日数十亿次搜索,AI Overviews每日仍会产生数千万个错误答案,相当于每小时生成数百万条错误信息

研究列举了多个错误案例。例如,当被问及鲍勃·马利故居成为博物馆的时间时,AI Overviews引用了三个网页,其中两个未提及具体日期,第三个(维基百科)列出两个矛盾年份,AI却错误地选择了其中一个。另一例中,AI Overviews引用了古典音乐名人堂官网,却声称该机构不存在,尽管官网明确列出了马友友的入选信息。

谷歌AI Overviews自2024年上线以来,因准确性问题饱受用户批评。尽管模型不断优化,但错误率仍居高不下,引发公众对AI生成内容可信度和信息生态安全的担忧。

编辑点评

谷歌AI Overviews的错误率虽控制在10%左右,但其每日处理的搜索量巨大,导致错误信息传播规模惊人。在信息传播高度依赖AI的今天,这种‘低错误率、高传播量’的组合可能放大虚假信息的负面影响,尤其在医疗、法律、历史等关键领域。从全球视角看,搜索引擎作为信息入口,其AI输出的准确性直接关系到公众认知的可靠性,可能影响社会共识与决策基础。此外,该问题也凸显AI模型在训练数据、事实核查机制和透明度方面的系统性短板。未来,若无强制性事实验证机制或第三方审计标准,类似问题可能在其他大型AI平台重现,对全球信息生态构成持续挑战。各国监管机构或需介入,推动AI内容可追溯、可验证机制的建立。

相关消息:https://arstechnica.com/google/2026/04/analysis-finds-google-ai-overviews-is-wrong-10-percent-of-the-time/
当日日报:查看 2026年04月08日 当日日报