专利 一种机器人运动技能学习方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210587314.0 (22)申请日 2022.05.25 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人黄销　胡佳辰　蒋志宏　李辉　 (74)专利代理机构北京高沃律师事务所 1 1569 专利代理师杜阳阳 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种机器人运动技能学习方法及系统 (57)摘要本发明涉及一种机器人运动技能学习方法及系统，涉及机器人学习领域，该方法包括：获取机器人的当前环境状态参数及所述机器人的当前动作；根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略；根据当前环境状态参数和所述无模型强化学习策略，采用环境动态模型预测所述机器人下一时刻的轨迹，记为初始轨迹；所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的；基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹；根据优化后的轨迹确定控制所述机器人的运动指令。本发明提高了机器人运动的学习效率。权利要求书3页说明书8页附图2页 CN 114918919 A 2022.08.19 CN 114918919 A 1.一种机器人运动技能学习方法，其特征在于，包括：获取机器人的当前环境状态参数及所述机器人的当前动作；根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略；根据当前环境状态参数和所述无模型强化学习策略，采用环境动态模型预测所述机器人下一时刻的轨迹，记为初始轨迹；所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的；基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹；根据优化后的轨迹确定控制所述机器人的运动指令。 2.根据权利要求1所述的机器人运动技能学习方法，其特征在于，所述根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略，具体包括：根据归一化优势函数算法构建状态动作值神经网络，所述状态动作值神经网络的输入为当前环境状态参数及当前动作，所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略，通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新；所述全局价值函数为：其中，为状态动作价值函数，为优势函数；其中， x表示当前环境状态参数， u表示当前动作， T表示转置，表示所述机器人动作分布的均值，表示所述机器人动作分布的方差。 3.根据权利要求1所述的机器人运动技能学习方法，其特征在于，还包括：根据建立K个概率神经网络来拟合所述环境动态模型；其中， xt为当前环境状态参数， xt+1为下一时刻的环境状态参数， ut为机器人当前动作，表示网络参数；表示下一时刻环境状态参数分布的平均值，表示下一时刻环境状态参数分布的方差， m表示从当前环境状态参数分布中采样的数量。 4.根据权利要求1所述的机器人运动技能学习方法，其特征在于，所述基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹，具体包括：初始化拉格朗日乘数λ和惩罚参数ρ，通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹，并更新拉格朗日乘数 λ和惩罚参数ρ；所述带有不等式约束的拉格朗日函数表示为：权　利　要　求　书 1/3 页 2 CN 114918919 A 2其中， τ为所述初始轨迹， c(xt,ut)＝κ‑[ut‑ πθ(ut|xt) ]2为不等式条件下的等式约束， γ为折扣因子， κ为邻域大小，为增广奖励函数， πθ(ut|xt)表示所述无模型控制策略， H 表示预测的步数， T表示转置， rt表示预设奖励函数， c＝c(xt,ut)， V(xH)表示环境参数为xH时的全局价值函数。 5.根据权利要求1所述的机器人运动技能学习方法，其特征在于，所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。 6.一种机器人运动技能学习系统，其特征在于，包括：机器人当前数据获取模块，用于获取机器人的当前环境状态参数及所述机器人的当前动作；全局价值函数和无模型强化学习策略确定模块，用于根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略；轨迹预测模块，用于根据当前环境状态参数和所述无模型强化学习策略，采用环境动态模型预测所述机器人下一时刻的轨迹，记为初始轨迹；所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的；轨迹优化模块，用于基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹；运动指令确定模块，用于根据优化后的轨迹确定控制所述机器人的运动指令。 7.根据权利要求6所述的机器人运动技能学习系统，其特征在于，所述全局价值函数和无模型强化学习策略确定模块，具体包括：全局价值函数和无模型强化学习策略确定单元，用于根据归一化优势函数算法构建状态动作值神经网络，所述状态动作值神经网络的输入为当前环境状态参数及当前动作，所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略，通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新；所述全局价值函数为：其中，为状态动作价值函数，为优势函数；其中， x表示当前环境状态参数， u表示当前动作， T表示转置，表示所述机器人动作分布的均值，表示所述机器人动作分布的方差。 8.根据权利要求6所述的机器人运动技能学习系统，其特征在于，还包括：根据建立K个概率神经网络来拟合所述环境动态模型；其中， xt为当前环境状态参数， xt+1为下一时刻的环境状态参数， ut为机器人当前动作，表示网络参数；权　利　要　求　书 2/3 页 3 CN 114918919 A 3

专利 一种机器人运动技能学习方法及系统

专利一种机器人运动技能学习方法及系统