← 返回

谷歌发布Gemini 3.1 Flash Live模型 声音更拟人化并引入AI水印

谷歌正式推出其最新生成式AI模型Gemini 3.1 Flash Live,该模型在实时语音对话中表现更接近人类,尤其在应对音频输入中的停顿和中断方面表现突出。尽管在Scale AI的Audio MultiChallenge测试中仅得36.1分(低于非对话型模型的50分以上),但其拟人化程度显着提升。为防止滥用,谷歌为该模型输出添加不可见的SynthID水印,可被技术手段检测。该模型已向开发者开放,通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience提供服务,并将率先应用于Gemini Live和Search L...

谷歌发布Gemini 3.1 Flash Live模型 声音更拟人化并引入AI水印

谷歌于2026年3月26日推出其最新生成式AI模型Gemini 3.1 Flash Live,旨在提升实时语音对话的自然度和流畅性。该模型在Scale AI的Audio MultiChallenge测试中得分为36.1%,虽低于非对话型音频模型(通常超过50%),但其在处理语音输入中的停顿、中断和自然语调方面表现优于现有实时对话模型。

为应对潜在的滥用风险,谷歌为Gemini 3.1 Flash Live的语音输出添加了SynthID水印。该水印对人类听觉不可感知,但可通过技术手段检测,以防止AI语音被伪装成真人语音使用。谷歌称此举旨在增强透明度与责任性。

该模型已向开发者开放,可通过AI Studio、Gemini API以及Gemini Enterprise for Customer Experience平台接入。Gemini Enterprise for Customer Experience主要用于构建智能客服和自动化购物代理。新模型将率先集成于Gemini Live和Search Live(AI Mode功能之一),自发布日起逐步上线。

谷歌已与Home Depot、Verizon等企业合作测试该模型,相关企业反馈其在模拟人类语音方面效果显着。未来用户在电话客服或语音交互场景中,可能难以分辨对话对象是否为AI助手。

编辑点评

Gemini 3.1 Flash Live的发布标志着AI语音技术向高度拟人化迈进,其在实时对话中的表现提升了用户体验,但也加剧了‘深度伪造’风险。虽然SynthID水印具备检测功能,但普通用户难以察觉,技术滥用仍存在空间。此举凸显科技公司在推动AI创新与防范伦理风险之间的平衡挑战。

从全球科技竞争角度看,谷歌此举是对OpenAI、Anthropic等竞争对手在语音交互领域的直接回应,进一步巩固其在生成式AI生态中的领导地位。随着该模型在客服、零售等场景的落地,企业可能加速AI替代人工进程,影响就业结构。

长期来看,此类技术将重塑人机交互范式,推动语音接口成为主流交互方式。同时,国际社会对AI内容标识、透明度和监管框架的需求将日益迫切。各国可能加快制定相关法规,以应对潜在社会信任危机。

相关消息:https://arstechnica.com/ai/2026/03/the-debut-of-gemini-3-1-flash-live-could-make-it-harder-to-know-if-youre-talking-to-a-robot/
当日日报:查看 2026年03月27日 当日日报