安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210587314.0 (22)申请日 2022.05.25 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 黄销 胡佳辰 蒋志宏 李辉  (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 杜阳阳 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种机器人运动技能学习方法及系统 (57)摘要 本发明涉及一种机器人运动技能学习方法 及系统, 涉及机器人学习领域, 该方法包括: 获取 机器人的当前环境状态参数及所述机器人的当 前动作; 根据当前环境状态参数及当前动作, 采 用无模型强化学习方法确定全局价值函数和无 模型强化学习策略; 根据当前环 境状态参数和所 述无模型强化学习策略, 采用环 境动态模型预测 所述机器人下一时刻的轨迹, 记为初始轨迹; 所 述环境动态模 型为采用K个相同结构的概率神经 网络拟合确定的; 基于所述全局价值函数, 采用 模型预测轨迹积分方法优化所述初始轨迹, 获得 优化后的轨迹; 根据优化后的轨迹确定控制所述 机器人的运动指令。 本发明提高了机器人运动的 学习效率。 权利要求书3页 说明书8页 附图2页 CN 114918919 A 2022.08.19 CN 114918919 A 1.一种机器人运动技能学习方法, 其特 征在于, 包括: 获取机器人的当前环境状态参数及所述机器人的当前动作; 根据当前环境状态参数及 当前动作, 采用无模型强化学习方法确定全局价值函数和无 模型强化学习策略; 根据当前环境状态参数和所述无模型强化学习策略, 采用环境动态模型预测所述机器 人下一时刻的轨迹, 记为初始轨迹; 所述环境动态模型为采用K个相同结构的概率神经网络 拟合确定的; 基于所述全局价值函数, 采用模型预测轨迹积分方法优化所述初始轨迹, 获得优化后 的轨迹; 根据优化后的轨 迹确定控制所述机器人的运动指令 。 2.根据权利要求1所述的机器人运动技 能学习方法, 其特征在于, 所述根据当前环境状 态参数及当前动作, 采用无模型强化学习 方法确定全局 价值函数和无模型强化学习 策略, 具体包括: 根据归一化优势函数算法构建状态动作值神经网络, 所述状态动作值神经网络的输入 为当前环境状态参数及当前动作, 所述状态动作值神经网络的的输出为全局价值函数和无 模型控制策略, 通过最小化贝尔曼误差进行 所述状态动作值神经网络的权值更新; 所述全局价 值函数为: 其中, 为状态动作价 值函数, 为优势函数; 其中, x表示当前环境状态参数, u表示当前动作, T表示转置, 表示所述机 器人动 作分布的均值, 表示所述机器人动作分布的方差 。 3.根据权利要求1所述的机器人运动技能学习方法, 其特征在于, 还包括: 根据 建立K个概率神经网 络来拟合所述环境动态模型; 其中, xt为当前环境状态参数, xt+1为下一时刻的环境状态参数, ut为机器人当前动作, 表示网络参数; 表示下一时刻环境状态参数分布的平均值, 表示下一时刻环境 状态参数分布的方差, m表示从当前环境状态参数分布中采样的数量。 4.根据权利要求1所述的机器人运动技 能学习方法, 其特征在于, 所述基于所述全局价 值函数, 采用模型 预测轨迹积分方法优化所述初始轨 迹, 获得优化后的轨 迹, 具体包括: 初始化拉格朗日乘数λ和惩罚参数ρ, 通过最小化带有不等式约束的拉格朗日函数进行 轨迹优化获得优化后的轨 迹, 并更新拉格朗日乘数 λ和惩罚参数ρ; 所述带有不 等式约束的拉格朗日函数表示 为: 权 利 要 求 书 1/3 页 2 CN 114918919 A 2其中, τ为所述初始轨迹, c(xt,ut)=κ‑[ut‑ πθ(ut|xt) ]2为不等式 条件下的 等式 约束 , γ为折 扣因 子 , κ为 邻域大小 , 为增广奖励函数, πθ(ut|xt)表示所述无模型控制策略, H 表示预测的步数, T表示转置, rt表示预设奖励函数, c=c(xt,ut), V(xH)表示环境参数为xH时 的全局价 值函数。 5.根据权利要求1所述的机器人运动技 能学习方法, 其特征在于, 所述环境状态参数包 括所述机器人的关节角度值、 关节角速度值以及预设 关节的关节末端的笛卡尔空间位置 。 6.一种机器人运动技能学习 系统, 其特 征在于, 包括: 机器人当前数据获取模块, 用于获取机器人的当前环境状态参数及所述机器人的当前 动作; 全局价值函数和无模型强化学习策略确定模块, 用于根据当前环境状态参数及 当前动 作, 采用无模型强化学习方法确定全局价 值函数和无模型强化学习策略; 轨迹预测模块, 用于根据当前环境状态参数和所述无模型强化学习策略, 采用环境动 态模型预测所述机器人下一时刻的轨迹, 记为初始轨迹; 所述环境动态模型为采用K个相同 结构的概 率神经网络拟合确定的; 轨迹优化模块, 用于基于所述全局价值函数, 采用模型预测轨迹积分方法优化所述初 始轨迹, 获得优化后的轨 迹; 运动指令确定模块, 用于根据优化后的轨 迹确定控制所述机器人的运动指令 。 7.根据权利要求6所述的机器人运动技 能学习系统, 其特征在于, 所述全局价值函数和 无模型强化学习策略确定模块, 具体包括: 全局价值函数和无模型强化学习策略确定单元, 用于根据归一化优势函数算法构建状 态动作值神经网络, 所述状态动作值神经网络的输入为当前环境状态参数及当前动作, 所 述状态动作值神经网络的的输出为全局价值函数和无模型控制策略, 通过最小化贝尔曼误 差进行所述状态动作值神经网络的权值更新; 所述全局价 值函数为: 其中, 为状态动作价 值函数, 为优势函数; 其中, x表示 当前环境状态参数, u表示当前动作, T表示转置, 表示所述机器 人动 作分布的均值, 表示所述机器人动作分布的方差 。 8.根据权利要求6所述的机器人运动技能学习系统, 其特征在于, 还包括: 根据 建立K个概率神经网 络来拟合所述环境动态模型; 其中, xt为当前环境状态参数, xt+1为下一时刻的环境状态参数, ut为机器人当前动作, 表示网络参数;权 利 要 求 书 2/3 页 3 CN 114918919 A 3

.PDF文档 专利 一种机器人运动技能学习方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种机器人运动技能学习方法及系统 第 1 页 专利 一种机器人运动技能学习方法及系统 第 2 页 专利 一种机器人运动技能学习方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:21:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。