波士顿动力机器人狗借助谷歌AI实现仪表读数功能
2026年4月14日,谷歌DeepMind宣布推出新一代机器人AI模型Gemini Robotics-ER 1.6,该模型与波士顿动力公司合作,显着提升了其四足机器人Spot在工业环境中的视觉检测能力。Spot现可准确读取工厂和仓库中的模拟温度计和压力表,完成复杂视觉任务,如判断液位、识别刻度与指针位置。
根据谷歌DeepMind介绍,Gemini Robotics-ER 1.6是一款“高级推理模型”,专为机器人设计,具备任务规划与执行能力。该模型通过“代理视觉”(agentic vision)技术,将视觉推理与代码执行结合,生成“视觉草稿板”,从而提升对复杂图像的处理能力。相比前代模型1.5版23%的读数准确率,新模型准确率提升至98%。即使不启用代理视觉,基础版本也能达到86%的准确率。
波士顿动力公司正将Spot机器人部署于现代汽车集团等工业设施中,作为自主巡检工具。该机器人需处理包含指针、液位、刻度、文字等多种元素的复杂仪表,对视觉推理要求极高。新模型还具备“多视角推理”能力,可整合多个摄像头数据,更全面理解环境。
此次技术升级源于谷歌DeepMind与波士顿动力的持续合作,是AI与物理世界交互的重要进展,有望推动工业自动化向更智能、自主的方向发展。
编辑点评
此次谷歌与波士顿动力的合作标志着AI与机器人技术的深度融合,具有重要的国际战略意义。在工业4.0背景下,自动化与智能化是制造业升级的核心方向。Gemini Robotics-ER 1.6模型将视觉推理与代码执行结合,提升了机器人在复杂物理环境中的自主决策能力,为工业巡检、危险环境作业等领域提供了高效解决方案。这一技术突破不仅增强美国在机器人和AI领域的领先地位,也可能引发全球制造业对智能巡检系统的广泛部署。
该模型98%的仪表读数准确率,远超此前水平,显示AI在“具身智能”(embodied AI)领域的快速进展。随着多视角推理和代理视觉技术成熟,机器人将不再局限于预设路径或简单任务,而是具备动态环境理解能力,有望应用于能源、化工、核电等高风险行业,减少人为操作风险。
从长远看,此类技术可能重塑全球供应链与工业生产模式,推动各国加速智能工厂建设。同时,也对数据安全、系统可靠性提出更高要求。未来,若该技术向全球推广,可能引发新一轮工业自动化竞争,尤其在中、美、德等制造业大国之间。