谷歌为人工智能机器人开发了一部“机器人宪法”,让机器人不伤害人类。
当地时间1月4日,谷歌DeepMind机器人团队公布了三项新进展,称这些进展将帮助机器人在自然环境中做出更快、更好、更安全的决策。其中一项进展是一个收集训练数据的“机器人宪法”系统——AutoRT。
谷歌的数据收集系统AutoRT利用了基础大模型的潜力,有助于开发能够理解人类实际目标的机器人。它通过收集数据帮助扩展机器人学习,从而更好地训练机器人适应现实世界。
AutoRT结合了视觉语言模型(VLM)、大语言模型(LLM)以及机器人控制模型(RT-1或RT-2),让机器人在新环境中收集训练数据。AutoRT可一次性安全指挥20个机器人,机器人只配备一个摄像头、机械臂和移动基座,每个机器人利用视觉语言模型来了解其周围环境和视线内的物体,大语言模型则会提出一系列机器人可以执行的创造性任务,比如把零食放在台面上,或者扮演决策者为机器人选择合适的任务。
尽管AutoRT是一个数据收集系统,但它具有安全护栏,其中之一就是提供“机器人宪法”。谷歌的“机器人宪法”采用“以安全为重点的提示”,指示大语言模型避免选择涉及人类、动物、尖锐物体甚至电器的任务。这部“机器人宪法”的灵感来自科幻作家艾萨克·阿西莫夫(Isaac Asimov)的“机器人三定律”,即机器人不得伤害人,也不得见人受伤害而袖手旁观;机器人应服从人的一切命令,但不得违反第一定律;机器人应保护自身安全,但不得违反第一、第二定律。为了提高安全性,DeepMind对机器人进行编程,如果机器人关节受力超过一定阈值就会自动停止,并安装了一个物理终止开关,让人类操控机器人停止工作。
在七个月时间里,谷歌在不同办公大楼中共部署52个独特的机器人,收集了包括6650个独特任务的77000次机器人试验的不同数据集。据The Verge报道,一些机器人由人类操作员远程控制,而其他机器人则根据脚本或完全自主使用谷歌的机器人Transformer(Robotic Transformer)人工智能学习模型进行操作。
DeepMind的其他新技术还包括神经网络架构SARA-RT,旨在让现有的机器人Transformer人工智能学习模型更快更准确。此外还宣布了RT-Trajectory模型,帮助机器人更好地完成擦桌子等特定物理任务。
对人类来说,理解如何擦桌子是一种直觉,但机器人可以通过多种方式将指令转化为实际的物理动作。传统上,训练机械臂依赖于将抽象的自然语言(如擦桌子)映射到特定动作,例如闭合抓手、向左移动、向右移动,但这使得模型很难推广到新的任务中。
而RT-Trajectory模型可以在训练视频中自动添加描述机器人运动的视觉轮廓。RT-Trajectory在训练数据集中采集每个视频,并将其与机器人手臂抓手执行任务时的2D轨迹草图叠加。这些轨迹为模型学习机器人控制策略提供了低级实用的视觉提示。
DeepMind表示,相比之下,RT-Trajectory模型能够通过解释视频或草图中包含的特定机器人动作让机器人理解“如何做”任务。该系统用途广泛,它还可以通过观看人类演示任务来创建轨迹,甚至可以接受手绘草图,它也可以轻松适应不同机器人平台。