www.skubook.com 这个机械臂正在完成够、拿、移、推、点、开等6个动作。 而且动作娴熟,还不存在失误。 更令人意外的是,训练这个机械臂,只花了短短25分钟。 即使有人为干扰,它也能够成功完成抓取动作。 还能抓起以前没有见过的物体形状。 这就是来自加州大学伯克利分校的一项新研究——高效机器操作框架Framework for Efficient Robotic Manipulation(FERM),专门对机械臂进行高效率操作的算法训练。 FERM为什么比其他方法效率高? 目前来看,大多数针对机器人训练的的RL算法效率都不是很好。 采用稀疏奖励的方法训练Dota5游戏的人机操作,使之成为达到人类玩家的高手水平,需要花180年的游戏时间。 训练一个机械臂的手势,则需要上千万的模拟学习的样本和两周的训练时间。 Sim2Real和模拟学习这两个方法稍微好点。Sim2Real需要接受模拟训练,再将训练结果运用到现实事例中。 模拟学习则需要通过一系列的专业训练示范案例和监督学习,才能得出最后的训练策略,实验结果非常依赖于输入示范案例的质量。 FERM优势在于,既没有依靠模拟训练转换到现实,也不用高度依赖于输入的示范案例的质量。 而是基于非监督性表征学习和数据扩张技术,使用了pixel-based RL。 因此,它仅仅需要10个Demo,25分钟的训练时间,就可以让机器人学会六个动作。 FERM具体怎么训练? FERM采用了基于像素的强化学习(pixel-based RL)方法。 具体而言,先收集小部分演示数据,并且将这些数据存放在“回放缓冲区”上。 然后,用观察结果结合对比损失量,来对编码器进行预训练。 而后,编码器和“回放缓冲区”运用一种线下的数据来加强RL算法,对RL智能体进行训练。 在论文中,研究人员总结了FERM主要优点: 1、高效率:FERM可以学习6种不同操作任务的最优策略,在15-50分钟的训练时间内完成每项任务。 2、简单统一的框架:框架结合现有的组成部分,将无监督的预训练和在线RL与数据扩充成一个单一高效的框架。 3、常规轻量设置:实施起来只需要一个机器人、一个GPU、两个摄像头、几个演示,以及稀疏奖励函数等等。 具体的实验结果如何? 实验结果 这项实验采用像素观察的方法执行了一系列任务。下图的每一栏显示了初始、中间、结果等三个状态。只有当机器人完成任务时,才会获得稀疏奖励。 这个训练算法的效率可谓很高了。具体完成时间如下图表格所示,在30分钟左右,它就可以让机器人学习操作任务。而简单的“够”(Reach)动作,则只需要三分钟。 实验结果称,它不需要很多的Demo,也不需要到大量的设备,首次完成任务的平均时间为11分钟,并且可以在25分钟内训练出6个机械动作。 所以研究人员骄傲地说: “据我们所知,FERM是第一个能在不到一小时的时间内,能通过像素点直接完成来自不同组、采用稀疏奖励方法的机器操作任务。” 而根据相关报告,未来十年,制造业将需要460万个岗位。许多制造商也都在转向自动化生产,机械自动化将占比越来越高。FERM这样的高效训练框架,可谓是制造业福音。 |
1
鲜花 |
1
握手 |
雷人 |
路过 |
鸡蛋 |
业界动态|娄烦信息社
2024-04-26
2024-04-26
2024-04-26
2024-04-26
2024-04-26
请发表评论