专利 基于改进的强化学习算法的机械手高精度位置控制方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210501422.1 (22)申请日 2022.05.10 (71)申请人南京理工大学地址 210094 江苏省南京市孝陵卫20 0号 (72)发明人陈龙淼　蒋帆　王满意　邹权　徐亚栋　孙乐　陈光宋　 (74)专利代理机构南京理工大学专利中心 32203 专利代理师汪清 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称基于改进的强化学习算法的机械手高精度位置控制方法 (57)摘要本发明公开了一种基于改进的强化学习算法的机械手高精度位置控制方法，本方法当中使用的是深度确定性策略梯度算法，即DDPG算法。在改进的DDPG算法当中，本方法包括在机械手数据的存储、提取等过程当中添加一种特殊的二叉树的方法；将传统的稀疏奖励函数重新构造，变成每步的奖励、前进的大小、稀疏奖励相结合构成特殊的奖励函数；包括增加噪声用于策略搜索。本发明通过将得到的样本集给予一个优先级存储到经验池，数据经过改进后的经验池提取时，得到更高优先级的数据将被优先利用，从而实现训练效率的提高、精确度的增强。结果表明，改进后的DDPG算法能够到达目标位置的成功率提高。权利要求书3页说明书5页附图5页 CN 114734446 A 2022.07.12 CN 114734446 A 1.一种基于改进的强化学习算法的机械手高精度位置控制方法，其特征在于，包括以下步骤：步骤1、确定奖励函数模型：改进传统的稀疏奖励模型，根据机械手的模型建立特殊奖励函数，包括机械手运动过程当中运动距离奖励，基础奖励，每步的奖励；步骤2、样本优先度的构建；首先确定关节运动角度与机械手空间位置关系，根据机械手模型计算动作角度、关节状态的关系；在机械手的动作选择过程当中增加OU噪声，同时将通过环境模型得到的当前状态、动作、下一时刻的状态、奖励、标志位作为样本，通过 sumtree算法标记得到的样本的优先级；步骤3、样本存储：在经验池建立sumtree算法，用于根据储存数据的时长计算置信度同时调整优先级，利用sumtree算法从在建立的一定容量的样本集当中挑选出最小批次的数据；步骤4：机械手关节空间位置训练；通过不断的迭代改变目标网络Qtarget与Q值Qvalue的时间差分误差TDerror，调整样本的优先度，进一步改变整个采样系统的采样策略，致使机械手更加趋向于目标位置。 2.根据权利要求1所述的基于改进的强化学习算法的机械手高精度位置控制方法，其特征在于，步骤1建立特殊奖励函数为： r＝r1+r2+r3 其中每步的奖励r1： state是机械臂末端姿态的当前位置， nextstate是机械臂末端姿态的下一时刻的位置， h为奖励值；运动距离奖励r2： (xx1， xy1， xz1)是机械手的当前末端位置， (xx0， xy0， xz0)是机械手的目标末端位置；基础奖励r3：其中θ 为机械臂目标位置的阈值。 3.根据权利要求1所述的基于改进的强化学习算法的机械手高精度位置控制方法，其特征在于，步骤2具体包括以下步骤： (1)首先确定机械臂的环境模型，建立机械臂关节动作与状态的关系，动作与下一时刻的状态关系具体为： (x1， y1， z1)＝[sin(a1)， cos(a1)， sin(a1)*l1)*l1+(x， y， z) (x2， y2， z2)＝[sin(a2+a1)， cos(a1+a2)， sin(a1+a2)*l2]*l2+(x1， y1， z1) 其中a1是关节1的动作，即关节角度1的变化角度； a2是关节2的动作； l1、 l2是机械臂不同关节的长度； (x1， y1， z1)是关节1的空间坐标； (x2， y2， z2)是关节2的空间位置坐标， (x， y， z) 为初始的空间位置坐标；权　利　要　求　书 1/3 页 2 CN 114734446 A 2(2)通过环境模型得到的当前状态、动作、下一时刻的状态、奖励、标志位作为样本，将每个经验样本定义一个优先度： priority＝TDerror(Qtarget‑Qvalue) 其中Qtarget为目标网络， Qvalue为Q值， TDerror为时间差分学习误差； (3)定义新的样本优先级的损失函数：其中m表示目前为止总的样本数； Qtargetj是样本为j的目标网络，表示策略是动作是Aj、权重是w 的当前Q值网络， sj是样本j下的状态，是状态sj下的策略， Aj是样本j的动作， wj是样本为j的权重； (4)设计一个重要性的采样，即：其中wj是样本为j的权重， N是数据集的样本数， β 是一个用来抵消对收敛结果影响的参数， P(j)是样本j的优先度。 4.根据权利要求5所述的基于改进的强化学习算法的机械手高精度位置控制方法，其特征在于，样本j的优先度P(j)为：其中α表示超参数，用于控制采样的偏好， α ∈[0， 1]； pk表示样本k的的优先度； k表示总的样本数； rank(j)就是第j个样本在全体样本的位置，按照对应的|priority|由大到小排序；其中N是数据集的样本数， β 是一个用来抵消对收敛结果影响的参数， P(j)是样本的优先度， maxi(wi)表示所有样本中最大的那个权重样本， P(i)表示样本为 i的优先度。 5.根据权利要求1所述的基于改进的强化学习算法的机械手高精度位置控制方法，其特征在于，步骤4具体包括以下步骤： (1)选择动作： action＝ μ(s| θu)+N 其中， N为加入的OU噪声， μ(s| θu)为通过策略θ和状态s选择的动作； (2)通过建立的critic网络得到当前的Q值，计算critic网络的梯度。同时采用A dam优化器进行更新critic网络，计算损失函数；更新actor、 critic网络的目标网络；同时更新当前数据的优先度： priority＝TDerror(Qtarget‑Qvalue) 其中Qtarget为目标网络， Qvalue为当前网络的Q 值， TDerror为时间差分学习误差权　利　要　求　书 2/3 页 3 CN 114734446 A 3

专利 基于改进的强化学习算法的机械手高精度位置控制方法

专利基于改进的强化学习算法的机械手高精度位置控制方法