安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210501422.1 (22)申请日 2022.05.10 (71)申请人 南京理工大 学 地址 210094 江苏省南京市孝陵卫20 0号 (72)发明人 陈龙淼 蒋帆 王满意 邹权 徐亚栋 孙乐 陈光宋 (74)专利代理 机构 南京理工大 学专利中心 32203 专利代理师 汪清 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 基于改进的强化学习算法的机械手高精度 位置控制方法 (57)摘要 本发明公开了一种基于改进的强化学习算 法的机械手高精度位置控制方法, 本方法当中使 用的是深度确定性策略梯度算法, 即DDPG算法。 在改进的DDPG算法当中, 本方法包括在机械手数 据的存储、 提取等过程当中添加一种特殊的二叉 树的方法; 将传统的稀疏奖励函数重新构造, 变 成每步的奖励、 前进的大小、 稀疏奖励相结合构 成特殊的奖励函数; 包括增加噪声用于策略搜 索。 本发明通过将得到的样本集给 予一个优先级 存储到经验池, 数据经过改进后的经验池提取 时, 得到更高优先级的数据将被优先利用, 从而 实现训练效率的提高、 精确度的增强。 结果表明, 改进后的DDPG算法能够到达目标位置的成功率 提高。 权利要求书3页 说明书5页 附图5页 CN 114734446 A 2022.07.12 CN 114734446 A 1.一种基于改进的强化学习算法的机械手高精度位置控制方法, 其特征在于, 包括以 下步骤: 步骤1、 确定奖励函数模型: 改进传统的稀疏奖励模型, 根据机械手的模型建立特殊奖 励函数, 包括机 械手运动过程当中运动距离奖励, 基础奖励, 每步的奖励; 步骤2、 样本优先度的构建; 首先确定关节运动角度与机械手空间位置关系, 根据机械 手模型计算动作角度、 关节状态的关系; 在机械手的动作选择过程当中增加OU噪声, 同时将 通过环境模型得到的当前状态、 动作、 下一时刻的状态、 奖励、 标志位作为样本, 通过 sumtree算法标记得到的样本的优先级; 步骤3、 样本存储: 在 经验池建立sumtree算法, 用于根据储存数据的时长计算置信度同 时调整优先级, 利用sumtree算法从在建立的一定容量的样本集当中挑选出最小批次的数 据; 步骤4: 机械手关节空间位置训练; 通过不断的迭代改变目标网络Qtarget与Q值Qvalue的时 间差分误差TDerror, 调整样本的优先度, 进一步改变整个采样系统 的采样策略, 致使机械手 更加趋向于目标位置 。 2.根据权利要求1所述的基于改进的强化学习算法的机械手高精度位置控制方法, 其 特征在于, 步骤1建立特殊奖励函数为: r=r1+r2+r3 其中每步的奖励r1: state是机械臂末端姿态的当前位置, nextstate是机械臂末端姿态的下一时刻的位 置, h为奖励值; 运动距离奖励r2: (xx1, xy1, xz1)是机械手的当前末端位置, (xx0, xy0, xz0)是机械手的目标末端位置; 基础奖励r3: 其中θ 为机 械臂目标位置的阈值。 3.根据权利要求1所述的基于改进的强化学习算法的机械手高精度位置控制方法, 其 特征在于, 步骤2具体包括以下步骤: (1)首先确定机械臂的环境模型, 建立机械臂关节动作与状态的关系, 动作与下一 时刻 的状态关系具体为: (x1, y1, z1)=[sin(a1), cos(a1), sin(a1)*l1)*l1+(x, y, z) (x2, y2, z2)=[sin(a2+a1), cos(a1+a2), sin(a1+a2)*l2]*l2+(x1, y1, z1) 其中a1是关节1的动作, 即关节角度1的变化角度; a2是关节2的动作; l1、 l2是机械臂不同 关节的长度; (x1, y1, z1)是关节1的空间坐标; (x2, y2, z2)是关节2的空间位置坐标, (x, y, z) 为初始的空间位置坐标;权 利 要 求 书 1/3 页 2 CN 114734446 A 2(2)通过环境模型得到的当前状态、 动作、 下一时刻的状态、 奖励、 标志位作为样本, 将 每个经验样本 定义一个优先度: priority=TDerror(Qtarget‑Qvalue) 其中Qtarget为目标网络, Qvalue为Q值, TDerror为时间差分学习误差; (3)定义新的样本优先级的损失函数: 其中m表示目前为止总的样本数; Qtargetj是样本为j的目标网络, 表示 策略是 动作是Aj、 权重是w 的当前Q值网络, sj是样本j下的状态, 是状态sj下的策 略, Aj是样本j的动作, wj是样本为j的权 重; (4)设计一个重要性的采样, 即: 其中wj是样本为j的权重, N是数据集的样本数, β 是一个用来抵消对收敛结果影响的参 数, P(j)是样本j的优先度。 4.根据权利要求5所述的基于改进的强化学习算法的机械手高精度位置控制方法, 其 特征在于, 样本j的优先度P(j)为: 其中α表示超参数, 用于控制采样的偏好, α ∈[0, 1]; pk表示样本k的的优先度; k表示总 的样本数; rank(j)就是第j个样本在全体样本的位置, 按照对应的|priority|由大到小排 序; 其中N是数据集的样本数, β 是一个用来抵消对收敛结果影响的参数, P(j)是样本的优 先度, maxi(wi)表示所有样本中最大的那个权 重样本, P(i)表示样本为 i的优先度。 5.根据权利要求1所述的基于改进的强化学习算法的机械手高精度位置控制方法, 其 特征在于, 步骤4具体包括以下步骤: (1)选择动作: action= μ(s| θu)+N 其中, N为加入的OU噪声, μ(s| θu)为通过策略θ和状态s选择的动作; (2)通过建立 的critic网络得到当前的Q值, 计算critic网络的梯度。 同时采用A dam优 化器进行更新critic网络, 计算损失函数; 更新actor、 critic网络的目标网络; 同时更新当 前数据的优先度: priority=TDerror(Qtarget‑Qvalue) 其中Qtarget为目标网络, Qvalue为当前网络的Q 值, TDerror为时间差分学习误差权 利 要 求 书 2/3 页 3 CN 114734446 A 3
专利 基于改进的强化学习算法的机械手高精度位置控制方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 10:24:39
上传分享
举报
下载
原文档
(745.5 KB)
分享
友情链接
齐齐哈尔市民用建筑节能管理办法.pdf
T CECC 027-2024 生成式人工智能数据应用合规指南.pdf
OWASP go语言 安全编码实践指南 中文版.pdf
GB-T 25067-2020 信息技术 安全技术 信息安全管理体系审核和认证机构要求.pdf
GB-T 30363-2013 森林植被状况监测技术规范.pdf
DL-T 2045-2019 中性点不接地系统铁磁谐振防治技术导则.pdf
DB4503-T 0044-2022 机关事务信息化功能建设规范 桂林市.pdf
GB-T 28827.2-2012 信息技术服务 运行维护 第2部分:交付规范.pdf
信息安全技术 网络安全等级保护基本要求 第1部分: 安全通用要求 标准征求意见稿.pdf
GB-T 38644-2020 信息安全技术 可信计算 可信连接测试方法.pdf
GB-T 34352-2017 有机热载体锅炉及系统清洗导则.pdf
付晓岩 数字银行论坛-以企业架构推动数字化 转型指导文件的落实 .pdf
GB-T 43528-2023 电化学储能电池管理通信技术要求.pdf
T-CASME 668—2023 CD3-CD4-CD8-CD16+CD56-CD19-CD45检测试剂盒 流式细胞仪法-6色.pdf
GB-T 20000.11-2016 标准化工作指南 第11部分:国家标准的英文译本通用表述.pdf
T-CPQS XF005—2023 消防应急照明和疏散指示产品维修、更换及相关服务.pdf
SN-T 3653-2013 食品接触材料 无机非金属材料 水模拟物中氟离子的测定 离子色谱法.pdf
CB-T 4521-2022 船舶行业企业工业管道和气体橡胶软管安全管理规定.pdf
GB-T 33207-2016 无损检测 在役金属管内氧化皮堆积的磁性检测方法.pdf
GB-T 35553-2017 城市轨道交通机电设备节能要求.pdf
1
/
3
14
评价文档
赞助2.5元 点击下载(745.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。