安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210515159.1 (22)申请日 2022.05.12 (71)申请人 四川大学 地址 610065 四川省成 都市武侯区一环路 南一段24号 (72)发明人 汤卿 裘方舟  (51)Int.Cl. B25J 9/16(2006.01) B25J 9/00(2006.01) (54)发明名称 一种基于演示轨迹的机器人装配运动规划 方法 (57)摘要 本发明属于机器人自主装配领域。 具体涉及 一种基于演示轨迹的机器人装配运动规划方法。 该方法包括以下步骤: 机器人演示学习阶段: 获 得机器人的装配演示轨迹, 机器人基于演示轨迹 学习装配操作技能; 多模态的表征学习阶段: 机 器人利用模仿学习策略引入噪声与环 境交互, 获 得多模态的数据与标签, 充分考虑机器人在运动 过程中的耗能和奇异性, 学习对应的多模态数据 的表征; 机器人强化学习阶段: 基于多模态表征 和演示轨迹搭建机器人轨迹规划强化学习流程, 强化学习训练获得最终规划策略。 本方法可以应 用于包含演示装配轨迹、 需要在不确定环境中实 现柔顺装配任务的机器人系统中, 用于提高装配 任务的成功率和效率。 权利要求书3页 说明书6页 附图3页 CN 114800515 A 2022.07.29 CN 114800515 A 1.本发明提出了一种基于演示轨迹的机器人装配运动规划方法, 其特征在于, 该方法 包括以下步骤: 机器人演示学习阶段: 获得机器人的装配演示轨迹, 机器人基于演示轨迹学 习装配操作技能; 多模态的表征学习阶段: 机器人利用模仿学习策略引入噪声与环境交互, 获得多模态的数据与标签, 充分考虑机器人在运动过程中的耗能和奇异性, 学习对应的多 模态数据的表征; 机器人强化学习阶段: 基于多模态表征和演示轨迹搭建机器人轨迹规划 强化学习流 程, 强化学习训练获得最终规划策略。 2.根据权利要求1所述的一种基于演示轨迹的机器人装配运动 规划方法, 其特征在于, 所述演示轨迹获取方法为人工示教, 通过示教拖动机器人的方式生成演示轨迹序列{τ1, τ2,..., τm}, 其中每 个序列包 含状态和动作序列 3.根据权利要求1所述的一种基于演示轨迹的机器人装配运动 规划方法, 其特征在于, 所述装配操作技能学习具体步骤如下: 1)将演示轨迹序列抽取成新的状态动作对 数据集: D ={(s1,a1),(s2,a2),(s3,a3),...}; 2)构建模仿学习策略网络, 策略网络架构为三层全连接 和Relu激活函数, 将状态作为输入, 动作 作为标签, 利用回归学 得最优策略模型。 4.根据权利要求1所述的一种基于演示轨迹的机器人装配运动 规划方法, 其特征在于, 所述多模态数据与标签包括: 固定相机获得的RGB和深度图像数据, 固定在机械臂末端的 力‑力矩传感器数据, 机械臂关节 位置、 速度数据, 表征机器人瞬时速度的光流数据, 机器人 运动过程中的碰撞数据, 机器人运动的耗能数据; 其中光流数据由图像处理算法可以计算 获得, 碰撞数据通过对力 ‑力矩传感器读数进行分析获得, 机器人运动的耗能数据通过计算 电机的功率获得。 5.根据权利要求1所述的一种基于演示轨迹的机器人装配运动 规划方法, 其特征在于, 所述多模态 表征获得 方式如下: 1)对多模态原始数据进行特征提取, 获得RGB图像特征、 深度图像特征、 力 ‑力矩特征和 机器人本体特征; 所述RGB图像特征包括: 128*128*3的RGB图像通过VGG ‑16网络编码, 并通 过一个全 连接层, 得到128维 高斯分布对应的128*2个特征值; 所述深度图像特征包括: 128* 128*1的深度图像通过VGG ‑16网络编码, 并通过一个全连接层, 得到128维高斯分布对应的 128*2个特征值; 所述力 ‑力矩特征包括: 将 32*6的力 ‑力矩传感器时间序列读数通过步长为 2的五层一维卷积编码, 并通过一个全连接层, 得到128维高斯分布对应的128*2个特征值; 所述机器人本体特征包括: 将关节 位置速度通过两层多层感知机编码, 得到128维 高斯分布 对应的128*2个特 征值; 2)根据概率图模型, 在已知多模态数据的情况下, 各个模态间条件独立; 因此可以根据 下式将各个模态的估计分布融合 为一个联合表征分布, 其中n表示模态数, 和 μj分别联合表征第j维的方差和均值; 和 μij则是第i个模态的 单模态分布第j维的方差和均值; 3)联合表征训练还需要利用动作输入对机器人的运动做出估计, 用以训练获得良好的 表征; 其中包括:权 利 要 求 书 1/3 页 2 CN 114800515 A 2基于碰撞的二分类预测, 用于判断机器人 是否与装配件发生接触; 基于光流的反卷积解码图像预测, 生成128*128*2的光 流图; 基于耗能的数值预测, 用于估计机器人在当前状态采用当前动作的耗能情况; 基于关节最大力矩的数值预测, 用于量 化估计机器人在空间的奇异化 程度。 6.据权利要求1、 权利要求5所述的一种基于演示轨迹的机器人装配运动规划方法, 其 特征在于, 所述强化学习流 程包括以下 具体步骤: 1)设定强化学习训练回合总数N, 回合结束条件, 以及每回合 最大步数 Kmax; 2)定义机器人控制策略π( θπ|s)及actor网络, 其中s为上述多模态联合表征的参数, 网 络参数为θπ; 定义状态价值函数V( θV|s)及critic 网络, 表示机器人在装配过程 中, 在状态s 时价值的估计值, 网络参数为θV; 3)设计回报函数r: 其中奖励函数分成两 部分r=r1+r2; r1为一回合结束 时的奖励值, 在其余情况下均为0, 其中K表示成功装配所需要的步数, Kmax是设定的每回合 最大步数值; r2为针对任务和规划目标的奖励函数设计; 所述规划目标包括运动过程中应当尽可能 降低能耗和关节力矩; 4)设定装配训练的回合数初始值 为n=1; 5)训练回合 开始时, 将机器人运动到初始位置, 初始化环境并设置对应的时刻t=1; 6)根据强化学习策略网络π( θπ|st, θω), 输出机器 人对应动作at和控制算 法参数, 将at作 为机器人控制闭环的输入, 机器人将与环境交互并运动到一个新位置, 得到新的环境状态 st+1, 同时根据奖励函数设置获得rt; 判断新的环境状态st+1是否满足终止条件, 将数据以 [st,at,rt,st+1,done]的形式进行存 储; 7)设置迭代步长α, 奖励函数折扣率γ, 每次利用存储数据和演示轨迹数据一起更新k 次actor网络和critic网络的参数θπ和 θV: 其中 又称优势函数, 可用下式计算 求得: 8)判断当前状态st+1是否满足 终止条件: 如果满足, 则当前回合终止, n =n+1, 执行步骤9); 如果未满足, 令t=t+1, 执 行步骤6); 9)判断装配训练的回合数n是否 到达设定的装配训练回合总数N: 如果到达则训练完毕, 保存策略网络参数θπ以便部署使用; 如果还未到 达则执行步骤5)。 7.根据权利要求6所述的一种基于演示轨迹的机器人装配运动 规划方法, 其特征在于, 所述actor网络和critic网络采用两层全 连接网络和Relu激活函数, 最后通过softmax层获权 利 要 求 书 2/3 页 3 CN 114800515 A 3

.PDF文档 专利 一种基于演示轨迹的机器人装配运动规划方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于演示轨迹的机器人装配运动规划方法 第 1 页 专利 一种基于演示轨迹的机器人装配运动规划方法 第 2 页 专利 一种基于演示轨迹的机器人装配运动规划方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:19:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。