(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210617856.8
(22)申请日 2022.06.01
(71)申请人 北京控制工程研究所
地址 100080 北京市海淀区北京272 9信箱
(72)发明人 汤亮 刘昊 黄煌 谢心如
(74)专利代理 机构 中国航天科技专利中心
11009
专利代理师 马全亮
(51)Int.Cl.
G06T 7/80(2017.01)
G06V 10/44(2022.01)
G06V 10/82(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
B25J 18/00(2006.01)
(54)发明名称
一种序列拨推采样归置策略迭代生成学习
方法及系统
(57)摘要
本发明公开了一种序列拨推采样归置策略
迭代生成学习方法, 用于在有限的工作空间、 丰
富的碰撞和 高度耦合的情况下生成连续的推送
动作, 将随机分散在有限容器内的任意形状的物
体自主归置, 从而为未来的未知 物体挤出尽可能
多的空间, 自主实现最大化装箱。 本方法采用任
务和运动规划思想, 将任务学习抽象为一个两层
问题。 高层任务规划使用基于近端策略优化
(PPO)的强化学习进行顺序推送决策。 在底层运
动规划中, 采用传统的轨迹线性规划方法结合碰
撞检测生 成机器人推送操作。 本方法能够以高效
灵活的方式排列未知对象, 同时将策略学习和机
械臂控制解耦, 从而具有更好的从仿真到现实世
界的可移植 性。
权利要求书2页 说明书6页 附图2页
CN 115205393 A
2022.10.18
CN 115205393 A
1.一种序列拨推采样归置策略迭代生成学习方法, 其特 征在于包括:
设计实验应用场景, 通过机械臂腕部的手眼相机实现工作空间的图像采集, 通过机械
臂末端的双指夹持器来执 行归置动作;
通过所述手眼相机获取工作空间的4通道RGB ‑D图像, 根据工作空间预定义边界和手眼
相机内外参数将4 通道RGB‑D图像矫正到俯视 视角, 输出Heightmap srgbd;
进行高层任务决策规划设计: 搭建图像特征提取层, 将获取的srgbd提取成高维特征向量
st, 作为强化学习的状态输入; 采用基于近端策略优化PPO的强化学习进行顺序推送决策,
生成拨推动作策略;
进行底层动作规划设计: 设计合理的归置动作; 针对生成的拨推动作策略, 规划机械臂
运动轨迹, 并进行碰撞力检测; 通过机 械臂控制器实现动作执 行;
根据物理场景搭建虚拟仿真训练场景, 设置动力学参数, 进行学习训练, 生成智能体网
络;
将智能体网络 迁移到物理试验中, 验证本序列拨推归置策略生成方法的性能。
2.根据权利要求1所述的一种序列 拨推采样归置策略迭代生成学习方法, 其特征在于:
设计应用场景, 具体为: 假设工作空间预定义边界为已知, 物体归置的容器为长方体箱子,
待归置物体随机放置于工作空间内, 待归置物体的质量、 形状、 颜色均为未知; 机械臂腕部
设置手眼相机, 实现工作空间的图像采集, 相机内外参数为已知; 机械臂末端设置有双指 夹
持器, 用于执 行归置动作; 机 械臂内设置力传感器, 用于 碰撞力检测。
3.根据权利要求1所述的一种序列 拨推采样归置策略迭代生成学习方法, 其特征在于:
所述搭建图像特征提取层, 将获取的srgbd提取成高维特征向量st, 作为强化学习的状态输
入, 具体为:
所述图像特征提取层, 包括三个特征提取单元和两个全连接的层; 每个特征提取单元
由卷积层、 重 叠池化层和残差模块组成;
首先使用卷积层、 非线性激活函数和批量归一化来提取特征, 然后将特征输入重叠池
化层, 从而减小输出的大小并提高预测精度。 最后, 添加两个残差模块进 行恒等映射以避免
深层神经网络的退化; 特征提取层从4通道RGB ‑D Heightmap srgbd提取特征, 并映射到128
维表示。
4.根据权利要求3所述的一种序列 拨推采样归置策略迭代生成学习方法, 其特征在于:
所述采用基于 近端策略优化的强化学习进行顺序推送决策, 具体为:
近端策略优化P PO包括一个优化随机策略的决策网络和一个近似值 函数的评价网络;
决策网络和评价网络都是由一个三层的多层感知器MLP构建, 该多层感知器MLP有两个
大小为512和25 6的隐藏层;
将以下损失函数作为优化目标
其中,
)为当前策略πθ和旧策略
的比值, at为当前动作, st
为当前状态,
为优势函数, ε为超参数,
表示对有限批次样本的平均值, clip为裁剪函
数, 确定了rt( θ )的上限1+ ε和下限1 ‑ε。权 利 要 求 书 1/2 页
2
CN 115205393 A
25.根据权利要求4所述的一种序列 拨推采样归置策略迭代生成学习方法, 其特征在于:
所述设计合理的归置动作, 具体为:
将每个时间步推送动作的表示定义为at=[xpix,ypix,d], 其中[xpix,ypix]对应于从容器
区域映射的动作网格空间的像素坐标, d是推动动作的方向, 将平 面中的连续推动方向离散
为八个可选方向, 闭合 二指末端的宽面作为拨推的执 行面。
6.根据权利要求5所述的一种序列 拨推采样归置策略迭代生成学习方法, 其特征在于:
所述针对生成的拨推动作策略, 规划机械臂运动轨迹, 并进行碰撞力检测, 具体为: 一次推
送的完整过程包括: 网络输出所需的推送位置和方向; 夹持器在所需位置上方垂直移动和
停止; 夹持器垂 直移动到所需的推动位置; 夹持器沿所需方向沿直线移动固定距离; 如果抓
取器到达目的地或从力传感器获得反馈, 则抓取器停止; 机械臂的运动采用传统的线性规
划方法。
7.根据权利要求6所述的一种序列 拨推采样归置策略迭代生成学习方法, 其特征在于:
所述通过机械臂控制器实现动作执行, 具体为采用多线程方式执行机械臂控制, 实现控制
与力反馈的结合。
8.根据权利要求6所述的一种序列 拨推采样归置策略迭代生成学习方法, 其特征在于:
所述根据 物理场景搭建虚拟 仿真训练场景, 设置动力学参数, 进 行学习训练, 一次学习过程
如下: 从srgbd中提取特征st输入决策网络, 决策网络生成决策πθ并选择动作at, 根据动作指
令执行拨推操作, 根据拨推环境变化计算奖励rt, 存储状态、 动作和奖励到缓存区中并计算
优势函数
重复上述步骤到一定步数后, 从缓存区中批量采样样本, 优化损失函数并更新
网络参数。
9.根据权利要求6所述的一种序列 拨推采样归置策略迭代生成学习方法, 其特征在于:
所述将智能体网络迁移到物理实验, 具体为: 搭建物理试验机械臂控制程序, 对手眼相机进
行标定, 读取训练好的网络参数, 将物体放入盒子中随机位置, 进行网络推理, 驱动机械臂
和夹爪对物体进行 拨推, 直到物体 被归置完成。
10.一种序列拨推采样归置策略迭代生成学习 系统, 其特 征在于包括:
第一模块: 设计实验应用场景, 通过机械臂腕部的手眼相机实现工作空间的图像采集,
通过机械臂末端的双指夹持器来执 行归置动作;
第二模块: 通过所述手眼相机获取工作空间的4通道RGB ‑D图像, 根据工作空间预定义
边界和手眼相机内外参数将4 通道RGB‑D图像矫正到俯视 视角, 输出Heightmap srgbd;
第三模块: 进行高层任务决策规划设计: 搭建图像特征提取层, 将获取的srgbd提取成高
维特征向量st, 作为强化学习的状态输入; 采用基于近端策略优化PPO的强化学习进行顺序
推送决策, 生成拨推动作策略;
第四模块: 进行底层动作规划设计: 设计合理的归置动作; 针对生成的拨推动作策略,
规划机械臂运动轨 迹, 并进行碰撞力检测; 通过机 械臂控制器实现动作执 行;
第五模块: 根据物理场景搭建虚拟仿真训练场景, 设置动力学参数, 进行学习训练, 生
成智能体网络;
第六模块: 将智能体网络迁移到物理试验中, 验证本序列拨推归置策略生成方法的性
能。权 利 要 求 书 2/2 页
3
CN 115205393 A
3
专利 一种序列拨推采样归置策略迭代生成学习方法及系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:10:19上传分享