4 月 2 日,智能协作机械臂厂商越疆机器人发布了 AI 训练机器人 X-Trainer。
视频显示了 X-Trainer 采用模仿学习神经网络+ 视觉大语言模型,训练 2 小时,获得了自主刷盘子的能力,相较普遍的训练时长,节省了 70% 的训练时间。
从带有红色食物残留物的盘子、放在黄色盘子上的海绵,以及后面挂着碟子的金属架,推理出清洗盘子并收纳到金属架的任务。
擦拭三连,不放过一点残留的污渍。
机器人刷完盘子准备放进盘架时,突然被人为干预再次弄脏盘子,但机器人迅速捕捉到这一变化,并立即做出反应。
看似一个简单的刷盘子任务,机器人也有灵活的反应!完整DEMO视频如下面所示:
视频发布后引起了网友的热议,并期待机器人做家务的时代真的到来!
网友热评
@YLshowT
@陆二的烤羊腿
@biubiu哈的视频号
甚至有人调侃,如果人类一直捣蛋,机器人会不会一直刷下去,会不会罢工!
实际上,X-Trainer 融合了智能机器人与 AI 最前沿技术,使得机器人能够快速模仿学习人类复杂动作,最终实现行为克隆。
越疆科技联合创始人郎需林表示,视频中 X-Trainer 一系列的动作来源于模仿学习神经网络端到端的控制,是训练后完全自主的运行,机器人的平稳性和速度有了显著的提升。整个方案采用了视觉大语言模型和模仿学习神经网络。
首先机器人摄像头将顶部的图像输入视觉大语言模型,X-Trainer 可以完成:
01、工作场景的描述 [包括沾有食物残渣的碟子,放在黄色盘子上的海绵,以及后面放置碟子的铁架,组成的这样一个厨房场景]
02、视觉大模型实现了对于任务的推理,[ 沾有食物残渣的盘子,放在黄色盘子上的海绵,以及后面放置碟子的金属架 = 清洗盘子并收纳到金属架的任务]
关于双臂的操作,所有动作通过端到端神经网络驱动,25Hz 频率接收顶部和手部的三个摄像头图像并完成推理,通过高性能的在线运动规划接口生成 250Hz 的双臂运动,(根据公开信息,figure01 接收机载图像网络频率为 10Hz),X-Trainer 25Hz 的端到端高性能运动接口,响应速度提升了150% ,这使得机器人的运行平稳性得到了进一步的提升。
2024 年 1 月, Figure 展示了 Figure 01 制作咖啡的一段视频并表示机器人练习这些动作的方法是端到端的方式,神经网络的训练时间为 10 小时。X-Trainer 通过人类示范学习,仅需 2 小时训练即可自主刷盘子,并对实时干扰快速纠正。
X-Trainer 的高速训练得益于 0.05mm 高精度双臂,使 AI 训练机器人拥有工业级数据采集与动作精度,大幅提升了完成任务的效率和质量,获得了用于快速训练的高质量数据集,而该机械臂更是在 3C 制造、商用咖啡店、医疗艾灸等领域广泛应用的工业级机械臂,这使得训练后场景的落地拥有了保障。
最后郎需林表示,模仿学习神经网络,端到端图像到动作的映射,训练速度和质量都在高速发展进步,无论是特斯拉还是 Figure 都展示相关的技术成果,X-Trainer,X 代表无限的训练可能,该训练平台的发布希望助力中国具身智能的发展,让人工智能的产业落地拥有一个高性能的载体。
具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性,是 AI 实现物理世界交互的关键载体。
协作机器人是具身智能的重要硬件载体,从工业到商业,释放更加巨大的市场空间。
越疆科技已在全球部署机器人超过 7 万台,产品服务覆盖 100 个国家和地区,服务于立讯精密、比亚迪、富士康、华为、丰田、大众等数十家世界 500 强企业,连续五年出口量居首,拥有丰富的具身智能应用和落地场景基础。
越疆科技一直致力于 AI+ 机器人的技术突破和产业落地,被美国 CB Insights评为全球 80 家最具投资价值的机器人企业之一,与全球众多人工智能院校建立了合作关系,包括牛津大学、卡耐基梅隆大学、麻省理工大学、早稻田大学,牵头承担广东省重点领域研发计划人工智能专项“多自由度智能体复杂技能自主学习、关键部件与 3C 制造业示范应用”。同时越疆作为国家级专精特新“小巨人”企业,于 2022 年牵头承担国家重点研发计划智能机器人专项,累计申请知识产权超过 1200 项,被认定为国家优势知识产权企业,在协作和人形机器人核心零部件、电子皮肤、遥操作、模仿学习等方向形成针对性的专利群布局。