与OpenAI官宣合作13天后,Figure旗下人形机器人的性能突飞猛进。
近日,Figure AI释出的一段视频显示,人形机器人Figure 01可以识别眼前物体,回答开放性提问,并听从指令将黑色塑料袋收拾进框子里、将杯子和盘子归置放在沥水架上。
Figure创始人兼首席执行官Brett Adcock强调,视频中Figure 01展示了端到端神经网络框架下与人类的对话,不存在任何远程操控。同时机器人的速度有了显著提升,开始接近人类的速度。
能识别、能对话、能思考
“Figure 01,你现在看到了什么?”
“我看到桌中间有个红苹果,一个沥水篮、一些杯子和盘子,以及你站在旁边,手搭在桌子上。”
既能识别出静态物体,还能判断人类的动作,Figure 01的视觉识别和理解能力可见一斑。
在随后的多轮对话里,Figure 01继续展现了其在上下文回溯、推理、多任务处理等方面的能力。
当被问到桌上有什么可以食用的,Figure 01回答:“当然”,随后流畅地把红苹果递给了提问者。
随后提问者往桌上倒了几个黑色塑料袋,要求Figure 01一边解释刚刚为何递给他苹果,一边把桌上垃圾收起来。Figure 01随后迅速给出反应,双手一边将塑料袋放回垃圾筐里,一边回答道:“我刚刚给了你个苹果,因为这是桌上唯一能吃的东西。”
紧接着,提问者给出了开放式提问,要求Figure 01结合面前的场景,判断应该把盘子放在哪。Figure 01表示,杯子和盘子可能该放在沥水篮里,并根据指令将杯子和盘子放进了沥水篮。
在问答中,Figure 01也显露了其在上下文推理上的能力。当提问者问道:“你能把它们放到那儿去吗(Can you put them there)?”,没有明示把何种物体放到何处,Figure 01根据前后文准确判断出代词所指代的含义,并完成相应指令。
Figure 01最后对上述表现进行了自我评估:“我觉得我做得很好,苹果找到了新主人,垃圾被扔掉了,餐具也放到了该放的地方。”
OpenAI提供“智力支持”
Figure成立于2022年,2023年10月,Figure正式推出了该公司首款人形机器人Figure 01。根据官方介绍,Figure 01身高5英尺6英寸,重132磅,设计可承载44磅的重量,续航达5小时。
不久前,Figure宣布完成新一笔融资,金额为6.75亿美元(约48.5亿元人民币),投资方包括英伟达、OpenAI、微软等科技巨头及亚马逊创始人贝索斯。作为协议的一部分,Figure AI将与OpenAI合作,开发下一代人形机器人的人工智能模型。
Brett Adcock称,与OpenAI的合作是“机器人技术的一个里程碑”。他希望,此次合作最终能让机器人与人类并肩工作,完成任务并进行对话。从理论上讲,理解语言并据此采取行动的能力,可以让机器人更好地与仓库工人一起工作或接受口头命令。
与OpenAI的合作,还可以帮助Figure AI的机器人实现自我纠正,并从过去的错误中吸取教训。Brett Adcock称,Figure AI的机器人已经具备了说话能力,并且可以用它的摄像头来描述它前面“看到”的东西,还可以描述在一段时间内某一特定地区可能发生的事情。Figure释出的最新视频,无疑印证了这些能力。
国内方面,不少人形机器人本体厂商也在加强与AI大模型的结合。达闼机器人在2023年发布了生成式AI平台RobotGPT以及海睿AGI和海睿OS 5.1,并将人形机器人接入RobotGPT,使机器人不仅可以与观众展开多轮对话,还能扮演多种角色。达闼机器人创始人、董事长兼CEO黄晓庆坚信,未来的机器人一定会是一种基于“云(云端大脑)、网(安全网络)、端(机器人终端)”架构的技术体系。
2023年10月,科大讯飞推出与宇树科技合作研发的人形机器人。科大讯飞董事长刘庆峰表示,星火大模型的推出,将让AIBOT赋能机器人发展进入到一个全新的阶段,人形机器人对复杂任务的拆解、开放场景的物体寻找明显提升,在强化学习泛化抓取、仿人行走的复杂地形运动能力上都比主流系统有一个非常大的提升。
“下一步,我们将以人形机器人为牵引,来推动‘视觉-语言-动作’多模态具身大模型,能够更好地赋能人形机器人。”刘庆峰说。