安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210501422.1 (22)申请日 2022.05.10 (71)申请人 南京理工大 学 地址 210094 江苏省南京市孝陵卫20 0号 (72)发明人 陈龙淼 蒋帆 王满意 邹权  徐亚栋 孙乐 陈光宋  (74)专利代理 机构 南京理工大 学专利中心 32203 专利代理师 汪清 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 基于改进的强化学习算法的机械手高精度 位置控制方法 (57)摘要 本发明公开了一种基于改进的强化学习算 法的机械手高精度位置控制方法, 本方法当中使 用的是深度确定性策略梯度算法, 即DDPG算法。 在改进的DDPG算法当中, 本方法包括在机械手数 据的存储、 提取等过程当中添加一种特殊的二叉 树的方法; 将传统的稀疏奖励函数重新构造, 变 成每步的奖励、 前进的大小、 稀疏奖励相结合构 成特殊的奖励函数; 包括增加噪声用于策略搜 索。 本发明通过将得到的样本集给 予一个优先级 存储到经验池, 数据经过改进后的经验池提取 时, 得到更高优先级的数据将被优先利用, 从而 实现训练效率的提高、 精确度的增强。 结果表明, 改进后的DDPG算法能够到达目标位置的成功率 提高。 权利要求书3页 说明书5页 附图5页 CN 114734446 A 2022.07.12 CN 114734446 A 1.一种基于改进的强化学习算法的机械手高精度位置控制方法, 其特征在于, 包括以 下步骤: 步骤1、 确定奖励函数模型: 改进传统的稀疏奖励模型, 根据机械手的模型建立特殊奖 励函数, 包括机 械手运动过程当中运动距离奖励, 基础奖励, 每步的奖励; 步骤2、 样本优先度的构建; 首先确定关节运动角度与机械手空间位置关系, 根据机械 手模型计算动作角度、 关节状态的关系; 在机械手的动作选择过程当中增加OU噪声, 同时将 通过环境模型得到的当前状态、 动作、 下一时刻的状态、 奖励、 标志位作为样本, 通过 sumtree算法标记得到的样本的优先级; 步骤3、 样本存储: 在 经验池建立sumtree算法, 用于根据储存数据的时长计算置信度同 时调整优先级, 利用sumtree算法从在建立的一定容量的样本集当中挑选出最小批次的数 据; 步骤4: 机械手关节空间位置训练; 通过不断的迭代改变目标网络Qtarget与Q值Qvalue的时 间差分误差TDerror, 调整样本的优先度, 进一步改变整个采样系统 的采样策略, 致使机械手 更加趋向于目标位置 。 2.根据权利要求1所述的基于改进的强化学习算法的机械手高精度位置控制方法, 其 特征在于, 步骤1建立特殊奖励函数为: r=r1+r2+r3 其中每步的奖励r1: state是机械臂末端姿态的当前位置, nextstate是机械臂末端姿态的下一时刻的位 置, h为奖励值; 运动距离奖励r2: (xx1, xy1, xz1)是机械手的当前末端位置, (xx0, xy0, xz0)是机械手的目标末端位置; 基础奖励r3: 其中θ 为机 械臂目标位置的阈值。 3.根据权利要求1所述的基于改进的强化学习算法的机械手高精度位置控制方法, 其 特征在于, 步骤2具体包括以下步骤: (1)首先确定机械臂的环境模型, 建立机械臂关节动作与状态的关系, 动作与下一 时刻 的状态关系具体为: (x1, y1, z1)=[sin(a1), cos(a1), sin(a1)*l1)*l1+(x, y, z) (x2, y2, z2)=[sin(a2+a1), cos(a1+a2), sin(a1+a2)*l2]*l2+(x1, y1, z1) 其中a1是关节1的动作, 即关节角度1的变化角度; a2是关节2的动作; l1、 l2是机械臂不同 关节的长度; (x1, y1, z1)是关节1的空间坐标; (x2, y2, z2)是关节2的空间位置坐标, (x, y, z) 为初始的空间位置坐标;权 利 要 求 书 1/3 页 2 CN 114734446 A 2(2)通过环境模型得到的当前状态、 动作、 下一时刻的状态、 奖励、 标志位作为样本, 将 每个经验样本 定义一个优先度: priority=TDerror(Qtarget‑Qvalue) 其中Qtarget为目标网络, Qvalue为Q值, TDerror为时间差分学习误差; (3)定义新的样本优先级的损失函数: 其中m表示目前为止总的样本数; Qtargetj是样本为j的目标网络, 表示 策略是 动作是Aj、 权重是w 的当前Q值网络, sj是样本j下的状态, 是状态sj下的策 略, Aj是样本j的动作, wj是样本为j的权 重; (4)设计一个重要性的采样, 即: 其中wj是样本为j的权重, N是数据集的样本数, β 是一个用来抵消对收敛结果影响的参 数, P(j)是样本j的优先度。 4.根据权利要求5所述的基于改进的强化学习算法的机械手高精度位置控制方法, 其 特征在于, 样本j的优先度P(j)为: 其中α表示超参数, 用于控制采样的偏好, α ∈[0, 1]; pk表示样本k的的优先度; k表示总 的样本数; rank(j)就是第j个样本在全体样本的位置, 按照对应的|priority|由大到小排 序; 其中N是数据集的样本数, β 是一个用来抵消对收敛结果影响的参数, P(j)是样本的优 先度, maxi(wi)表示所有样本中最大的那个权 重样本, P(i)表示样本为 i的优先度。 5.根据权利要求1所述的基于改进的强化学习算法的机械手高精度位置控制方法, 其 特征在于, 步骤4具体包括以下步骤: (1)选择动作: action= μ(s| θu)+N 其中, N为加入的OU噪声, μ(s| θu)为通过策略θ和状态s选择的动作; (2)通过建立 的critic网络得到当前的Q值, 计算critic网络的梯度。 同时采用A dam优 化器进行更新critic网络, 计算损失函数; 更新actor、 critic网络的目标网络; 同时更新当 前数据的优先度: priority=TDerror(Qtarget‑Qvalue) 其中Qtarget为目标网络, Qvalue为当前网络的Q 值, TDerror为时间差分学习误差权 利 要 求 书 2/3 页 3 CN 114734446 A 3

.PDF文档 专利 基于改进的强化学习算法的机械手高精度位置控制方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于改进的强化学习算法的机械手高精度位置控制方法 第 1 页 专利 基于改进的强化学习算法的机械手高精度位置控制方法 第 2 页 专利 基于改进的强化学习算法的机械手高精度位置控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:24:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。