安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210587314.0 (22)申请日 2022.05.25 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 黄销 胡佳辰 蒋志宏 李辉 (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 杜阳阳 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种机器人运动技能学习方法及系统 (57)摘要 本发明涉及一种机器人运动技能学习方法 及系统, 涉及机器人学习领域, 该方法包括: 获取 机器人的当前环境状态参数及所述机器人的当 前动作; 根据当前环境状态参数及当前动作, 采 用无模型强化学习方法确定全局价值函数和无 模型强化学习策略; 根据当前环 境状态参数和所 述无模型强化学习策略, 采用环 境动态模型预测 所述机器人下一时刻的轨迹, 记为初始轨迹; 所 述环境动态模 型为采用K个相同结构的概率神经 网络拟合确定的; 基于所述全局价值函数, 采用 模型预测轨迹积分方法优化所述初始轨迹, 获得 优化后的轨迹; 根据优化后的轨迹确定控制所述 机器人的运动指令。 本发明提高了机器人运动的 学习效率。 权利要求书3页 说明书8页 附图2页 CN 114918919 A 2022.08.19 CN 114918919 A 1.一种机器人运动技能学习方法, 其特 征在于, 包括: 获取机器人的当前环境状态参数及所述机器人的当前动作; 根据当前环境状态参数及 当前动作, 采用无模型强化学习方法确定全局价值函数和无 模型强化学习策略; 根据当前环境状态参数和所述无模型强化学习策略, 采用环境动态模型预测所述机器 人下一时刻的轨迹, 记为初始轨迹; 所述环境动态模型为采用K个相同结构的概率神经网络 拟合确定的; 基于所述全局价值函数, 采用模型预测轨迹积分方法优化所述初始轨迹, 获得优化后 的轨迹; 根据优化后的轨 迹确定控制所述机器人的运动指令 。 2.根据权利要求1所述的机器人运动技 能学习方法, 其特征在于, 所述根据当前环境状 态参数及当前动作, 采用无模型强化学习 方法确定全局 价值函数和无模型强化学习 策略, 具体包括: 根据归一化优势函数算法构建状态动作值神经网络, 所述状态动作值神经网络的输入 为当前环境状态参数及当前动作, 所述状态动作值神经网络的的输出为全局价值函数和无 模型控制策略, 通过最小化贝尔曼误差进行 所述状态动作值神经网络的权值更新; 所述全局价 值函数为: 其中, 为状态动作价 值函数, 为优势函数; 其中, x表示当前环境状态参数, u表示当前动作, T表示转置, 表示所述机 器人动 作分布的均值, 表示所述机器人动作分布的方差 。 3.根据权利要求1所述的机器人运动技能学习方法, 其特征在于, 还包括: 根据 建立K个概率神经网 络来拟合所述环境动态模型; 其中, xt为当前环境状态参数, xt+1为下一时刻的环境状态参数, ut为机器人当前动作, 表示网络参数; 表示下一时刻环境状态参数分布的平均值, 表示下一时刻环境 状态参数分布的方差, m表示从当前环境状态参数分布中采样的数量。 4.根据权利要求1所述的机器人运动技 能学习方法, 其特征在于, 所述基于所述全局价 值函数, 采用模型 预测轨迹积分方法优化所述初始轨 迹, 获得优化后的轨 迹, 具体包括: 初始化拉格朗日乘数λ和惩罚参数ρ, 通过最小化带有不等式约束的拉格朗日函数进行 轨迹优化获得优化后的轨 迹, 并更新拉格朗日乘数 λ和惩罚参数ρ; 所述带有不 等式约束的拉格朗日函数表示 为: 权 利 要 求 书 1/3 页 2 CN 114918919 A 2其中, τ为所述初始轨迹, c(xt,ut)=κ‑[ut‑ πθ(ut|xt) ]2为不等式 条件下的 等式 约束 , γ为折 扣因 子 , κ为 邻域大小 , 为增广奖励函数, πθ(ut|xt)表示所述无模型控制策略, H 表示预测的步数, T表示转置, rt表示预设奖励函数, c=c(xt,ut), V(xH)表示环境参数为xH时 的全局价 值函数。 5.根据权利要求1所述的机器人运动技 能学习方法, 其特征在于, 所述环境状态参数包 括所述机器人的关节角度值、 关节角速度值以及预设 关节的关节末端的笛卡尔空间位置 。 6.一种机器人运动技能学习 系统, 其特 征在于, 包括: 机器人当前数据获取模块, 用于获取机器人的当前环境状态参数及所述机器人的当前 动作; 全局价值函数和无模型强化学习策略确定模块, 用于根据当前环境状态参数及 当前动 作, 采用无模型强化学习方法确定全局价 值函数和无模型强化学习策略; 轨迹预测模块, 用于根据当前环境状态参数和所述无模型强化学习策略, 采用环境动 态模型预测所述机器人下一时刻的轨迹, 记为初始轨迹; 所述环境动态模型为采用K个相同 结构的概 率神经网络拟合确定的; 轨迹优化模块, 用于基于所述全局价值函数, 采用模型预测轨迹积分方法优化所述初 始轨迹, 获得优化后的轨 迹; 运动指令确定模块, 用于根据优化后的轨 迹确定控制所述机器人的运动指令 。 7.根据权利要求6所述的机器人运动技 能学习系统, 其特征在于, 所述全局价值函数和 无模型强化学习策略确定模块, 具体包括: 全局价值函数和无模型强化学习策略确定单元, 用于根据归一化优势函数算法构建状 态动作值神经网络, 所述状态动作值神经网络的输入为当前环境状态参数及当前动作, 所 述状态动作值神经网络的的输出为全局价值函数和无模型控制策略, 通过最小化贝尔曼误 差进行所述状态动作值神经网络的权值更新; 所述全局价 值函数为: 其中, 为状态动作价 值函数, 为优势函数; 其中, x表示 当前环境状态参数, u表示当前动作, T表示转置, 表示所述机器 人动 作分布的均值, 表示所述机器人动作分布的方差 。 8.根据权利要求6所述的机器人运动技能学习系统, 其特征在于, 还包括: 根据 建立K个概率神经网 络来拟合所述环境动态模型; 其中, xt为当前环境状态参数, xt+1为下一时刻的环境状态参数, ut为机器人当前动作, 表示网络参数;权 利 要 求 书 2/3 页 3 CN 114918919 A 3
专利 一种机器人运动技能学习方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 10:21:10
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
GB-T 34290-2017 公共体育设施 室外健身设施的配置与管理.pdf
GB-T 34807-2017 岩土工程仪器设备的检验测试通用技术规范.pdf
GB-T 41807-2022 信息安全技术 声纹识别数据安全要求.pdf
信通院 金融级数据库容灾备份技术报告-2021年.pdf
ISO IEC 38505-1 中文版.pdf
ISO 9241 820 2024 Ergonomics of human system interaction Part 820 Ergonomic guidance on interzctions in immersive environments including augmented reality and virtual reality.pdf
GB-T 28435-2012 地面数字电视广播发射机技术要求和测量方法.pdf
蚂蚁集团王维强:大模型安全的探索与实践分享-大模型安全的“快”与“慢”.pdf
GB/T 23827-2021 道路交通标志板及支撑件.pdf
DB11-T 1968-2022 中央厨房布局设置与管理规范 北京市.pdf
GB-T 29832.1-2013 系统与软件可靠性 第1部分:指标体系.pdf
GB-T 33061.4-2023 塑料 动态力学性能的测定 第4部分 非共振拉伸振动法.pdf
T-CFA 030501—2020 铸造企业生产能力核算方法.pdf
GB-T 40064-2021 节能技术评价导则.pdf
DB1408-T005-2020 果园植保器械农药有效沉积率评价技术规程 运城市.pdf
贵阳市大数据安全管理条例.pdf
JR-T0167-2020 云计算技术金融应用规范 安全技术要求.pdf
GB-T 28543-2021 电力电容器噪声测量方法.pdf
GB-T 19228.2-2011 不锈钢卡压式管件组件 第2部分:连接用薄壁不锈钢管.pdf
GB-T 7921-2008 均匀色空间和色差公式.pdf
1
/
3
14
评价文档
赞助2.5元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。