(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210515159.1
(22)申请日 2022.05.12
(71)申请人 四川大学
地址 610065 四川省成 都市武侯区一环路
南一段24号
(72)发明人 汤卿 裘方舟
(51)Int.Cl.
B25J 9/16(2006.01)
B25J 9/00(2006.01)
(54)发明名称
一种基于演示轨迹的机器人装配运动规划
方法
(57)摘要
本发明属于机器人自主装配领域。 具体涉及
一种基于演示轨迹的机器人装配运动规划方法。
该方法包括以下步骤: 机器人演示学习阶段: 获
得机器人的装配演示轨迹, 机器人基于演示轨迹
学习装配操作技能; 多模态的表征学习阶段: 机
器人利用模仿学习策略引入噪声与环 境交互, 获
得多模态的数据与标签, 充分考虑机器人在运动
过程中的耗能和奇异性, 学习对应的多模态数据
的表征; 机器人强化学习阶段: 基于多模态表征
和演示轨迹搭建机器人轨迹规划强化学习流程,
强化学习训练获得最终规划策略。 本方法可以应
用于包含演示装配轨迹、 需要在不确定环境中实
现柔顺装配任务的机器人系统中, 用于提高装配
任务的成功率和效率。
权利要求书3页 说明书6页 附图3页
CN 114800515 A
2022.07.29
CN 114800515 A
1.本发明提出了一种基于演示轨迹的机器人装配运动规划方法, 其特征在于, 该方法
包括以下步骤: 机器人演示学习阶段: 获得机器人的装配演示轨迹, 机器人基于演示轨迹学
习装配操作技能; 多模态的表征学习阶段: 机器人利用模仿学习策略引入噪声与环境交互,
获得多模态的数据与标签, 充分考虑机器人在运动过程中的耗能和奇异性, 学习对应的多
模态数据的表征; 机器人强化学习阶段: 基于多模态表征和演示轨迹搭建机器人轨迹规划
强化学习流 程, 强化学习训练获得最终规划策略。
2.根据权利要求1所述的一种基于演示轨迹的机器人装配运动 规划方法, 其特征在于,
所述演示轨迹获取方法为人工示教, 通过示教拖动机器人的方式生成演示轨迹序列{τ1,
τ2,..., τm}, 其中每 个序列包 含状态和动作序列
3.根据权利要求1所述的一种基于演示轨迹的机器人装配运动 规划方法, 其特征在于,
所述装配操作技能学习具体步骤如下: 1)将演示轨迹序列抽取成新的状态动作对 数据集: D
={(s1,a1),(s2,a2),(s3,a3),...}; 2)构建模仿学习策略网络, 策略网络架构为三层全连接
和Relu激活函数, 将状态作为输入, 动作 作为标签, 利用回归学 得最优策略模型。
4.根据权利要求1所述的一种基于演示轨迹的机器人装配运动 规划方法, 其特征在于,
所述多模态数据与标签包括: 固定相机获得的RGB和深度图像数据, 固定在机械臂末端的
力‑力矩传感器数据, 机械臂关节 位置、 速度数据, 表征机器人瞬时速度的光流数据, 机器人
运动过程中的碰撞数据, 机器人运动的耗能数据; 其中光流数据由图像处理算法可以计算
获得, 碰撞数据通过对力 ‑力矩传感器读数进行分析获得, 机器人运动的耗能数据通过计算
电机的功率获得。
5.根据权利要求1所述的一种基于演示轨迹的机器人装配运动 规划方法, 其特征在于,
所述多模态 表征获得 方式如下:
1)对多模态原始数据进行特征提取, 获得RGB图像特征、 深度图像特征、 力 ‑力矩特征和
机器人本体特征; 所述RGB图像特征包括: 128*128*3的RGB图像通过VGG ‑16网络编码, 并通
过一个全 连接层, 得到128维 高斯分布对应的128*2个特征值; 所述深度图像特征包括: 128*
128*1的深度图像通过VGG ‑16网络编码, 并通过一个全连接层, 得到128维高斯分布对应的
128*2个特征值; 所述力 ‑力矩特征包括: 将 32*6的力 ‑力矩传感器时间序列读数通过步长为
2的五层一维卷积编码, 并通过一个全连接层, 得到128维高斯分布对应的128*2个特征值;
所述机器人本体特征包括: 将关节 位置速度通过两层多层感知机编码, 得到128维 高斯分布
对应的128*2个特 征值;
2)根据概率图模型, 在已知多模态数据的情况下, 各个模态间条件独立; 因此可以根据
下式将各个模态的估计分布融合 为一个联合表征分布,
其中n表示模态数,
和 μj分别联合表征第j维的方差和均值;
和 μij则是第i个模态的
单模态分布第j维的方差和均值;
3)联合表征训练还需要利用动作输入对机器人的运动做出估计, 用以训练获得良好的
表征; 其中包括:权 利 要 求 书 1/3 页
2
CN 114800515 A
2基于碰撞的二分类预测, 用于判断机器人 是否与装配件发生接触;
基于光流的反卷积解码图像预测, 生成128*128*2的光 流图;
基于耗能的数值预测, 用于估计机器人在当前状态采用当前动作的耗能情况;
基于关节最大力矩的数值预测, 用于量 化估计机器人在空间的奇异化 程度。
6.据权利要求1、 权利要求5所述的一种基于演示轨迹的机器人装配运动规划方法, 其
特征在于, 所述强化学习流 程包括以下 具体步骤:
1)设定强化学习训练回合总数N, 回合结束条件, 以及每回合 最大步数 Kmax;
2)定义机器人控制策略π( θπ|s)及actor网络, 其中s为上述多模态联合表征的参数, 网
络参数为θπ; 定义状态价值函数V( θV|s)及critic 网络, 表示机器人在装配过程 中, 在状态s
时价值的估计值, 网络参数为θV;
3)设计回报函数r: 其中奖励函数分成两 部分r=r1+r2;
r1为一回合结束 时的奖励值, 在其余情况下均为0, 其中K表示成功装配所需要的步数,
Kmax是设定的每回合 最大步数值;
r2为针对任务和规划目标的奖励函数设计; 所述规划目标包括运动过程中应当尽可能
降低能耗和关节力矩;
4)设定装配训练的回合数初始值 为n=1;
5)训练回合 开始时, 将机器人运动到初始位置, 初始化环境并设置对应的时刻t=1;
6)根据强化学习策略网络π( θπ|st, θω), 输出机器 人对应动作at和控制算 法参数, 将at作
为机器人控制闭环的输入, 机器人将与环境交互并运动到一个新位置, 得到新的环境状态
st+1, 同时根据奖励函数设置获得rt; 判断新的环境状态st+1是否满足终止条件, 将数据以
[st,at,rt,st+1,done]的形式进行存 储;
7)设置迭代步长α, 奖励函数折扣率γ, 每次利用存储数据和演示轨迹数据一起更新k
次actor网络和critic网络的参数θπ和 θV:
其中
又称优势函数, 可用下式计算 求得:
8)判断当前状态st+1是否满足 终止条件:
如果满足, 则当前回合终止, n =n+1, 执行步骤9);
如果未满足, 令t=t+1, 执 行步骤6);
9)判断装配训练的回合数n是否 到达设定的装配训练回合总数N:
如果到达则训练完毕, 保存策略网络参数θπ以便部署使用;
如果还未到 达则执行步骤5)。
7.根据权利要求6所述的一种基于演示轨迹的机器人装配运动 规划方法, 其特征在于,
所述actor网络和critic网络采用两层全 连接网络和Relu激活函数, 最后通过softmax层获权 利 要 求 书 2/3 页
3
CN 114800515 A
3
专利 一种基于演示轨迹的机器人装配运动规划方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:19:36上传分享