(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210610733.1
(22)申请日 2022.05.31
(71)申请人 苏州大学
地址 215123 江苏省苏州市苏州工业园区
仁爱路199号
(72)发明人 刘全 吴光军 朱斐
(74)专利代理 机构 苏州翔远专利代理事务所
(普通合伙) 32251
专利代理师 陆金星
(51)Int.Cl.
B25J 9/16(2006.01)
(54)发明名称
一种基于环境交 互的机器人实时控制方法
(57)摘要
本发明公开的一种基于环境交互的机器人
实时控制方法, 包括初始化行动者网络参数, 评
论家网络为,目标网络行动者参数和目标评论家
参数,经验缓冲池, 各个阶段间隔时间步, 使用K ‑
means对已有样本进行聚类学习至数据收敛; 获
取机器人初始状态st, 判断机器人初始状态st所
属类簇中心; 通过摄像头采集的视频数据得出当
前机器人的状态信息, 然后将此信息通过以太网
传输到后台服务器, 得到机器人下一步该执行的
动作a; 执行动作a, 获得立 即奖赏, 并获取机器人
下一状态, 将经验放入经验缓冲池; 从经验缓冲
池中随机采样小批量的n个经验转移样本; 通过
最小化损失函数更新评论家网络参数通过策略
梯度方法更新行动者网络参数, 更新目标网络参
数。
权利要求书1页 说明书5页 附图1页
CN 114872049 A
2022.08.09
CN 114872049 A
1.一种基于环境交 互的机器人实时控制方法, 其特 征在于, 包括如下步骤:
S1, 初始化行动者网络参数为
评论家网络为θQ,目标网络行动者
参数为
和目标评论家参数θQ′←θQ,经验缓冲池E1,
E2,…, EN, 各个阶段间隔时间步M, 使用K ‑means对已有样本进行聚类学习至数据收敛;
S2,获取机器人初始状态st, 判断机器人初始状态st所属类别;
S3, 通过摄像头采集的视频数据得出当前机器人的状态信息, 然后将此信息通过以太
网传输到后台服 务器, 得到 机器人下一步该执行的动作a;
S3, 执行动作a, 获得立即奖赏rt+1, 并获取机器人下一状态st+1, 将经验(st, at, rt+1, st+1)
放入经验缓冲池Ek, 经验缓冲池用于存 储经验转移样本;
S4, 从经验缓冲池Ek中随机采样小批量的n个经验转移样本(si, ai, ri+1, si+1), 经验转移
样本指代的是智能体训练过程中产生的一系列变化样本, 主要包括智能体当前 的状态, 执
行的动作 , 执行该动作后从环境反馈得到的奖赏和执行动作后的状态 , 计算
式中ri为从环境处得到的立即奖赏, γ为 折扣因子;
S5, 通过最小化损失函数更新评论家网络参数通过策略梯度方法更新行动者网络参
数, 更新目标网络参数;
S6, 如果到达下一阶段, 则将K ‑means判别器的类簇中心个数加一, 并重新聚类至收敛,
且重置阶段步长 C, 如果状态是终止状态并且该情节步数已达 到最大, 则转入S2。
2.根据权利要求1所述的一种基于环境交互 的机器人实时控制方法, 其特征在于, 通过
k‑means方法对初始状态进行判断, 输出对应 类别。
3.根据权利要求1所述的一种基于环境交互 的机器人实时控制方法, 其特征在于, S3 中
摄像头采集的视频 数据通过TMS320 C6670芯片进行分析。
4.根据权利要求1所述的一种基于环境交互 的机器人实时控制方法, 其特征在于, 更新
行动者目标网络和评论家目标网络参数, 策略函数和 价值函数均使用双 网络架构, 即分别
设置预测网络和目标网络 。
5.根据权利要求4所述的一种基于环境交互 的机器人实时控制方法, 其特征在于, S3 中
服务器处理数据得到机器人下一步该执行的动作, 然后 将动作控制信息通过以太网再传回
给芯片, 控制机器人的执 行。
6.根据权利要求1所述的一种基于环境交互 的机器人实时控制方法, 其特征在于, S5 中
最小化损失函数来更新价值网络参数w,
式中N为采样
情节数。
7.根据权利要求1所述的一种基于环境交互 的机器人实时控制方法, 其特征在于, S5 中
根据最大化目标函数来更新策略网络参数θ:
式中N为
采样情节数。权 利 要 求 书 1/1 页
2
CN 114872049 A
2一种基于环境交互的机 器人实时控制方 法
技术领域
[0001]本发明涉及机器人控制 领域, 更具体的, 涉及一种基于环境交互的机器人实时控
制方法。
背景技术
[0002]强化学习是一种在环境中不断自主学习, 寻找规律最大化未来累计奖赏, 从而寻
找到最优策略的方法。 具体来说, 强化学习 是根据智能体的当前状态, 寻找可执行的动作,
使获得的收益最大化, 因此强化学习适合解决序贯决策问题。 在传统强化学习中, 主要有基
于值函数的SARSA和Q ‑Learning两种方法。 在经典强化学习任务, 如Cart ‑Pole和Mou ntain‑
Car等低维状态空间任务, 基于值函数类的方法有不错的效果。 但在高维动作空间环境表现
却不尽如人意。 随着深度学习的发展, 深度神经网络有高效地识别高维数据的能力, 因此将
深度学习与强化学习相结合的深度强化学习方法能解决高维动作空间问题, 并在自然语言
处理、 自动驾驶、 推荐系统等复杂动作状态空间任务领域有着不 错的效果。
[0003]深度确定性策略梯度方法使用深度神经网络表达确定性策略, 采用确定性策略梯
度来更新网络参数, 能够有效应用于大规模或连续动作 空间的强化学习任务中。 深度确定
性策略梯度方法的价值网络作为评论家, 用于评估策略, 学习Q函数, 为策略网络提供梯度
信息。 策略网络作为行动者, 利用评论家学习到的Q函数及梯度信息对策略进行改进, 同时
也增加了带噪声的探索机制和软更新方法。 在深度确定性策略梯度方法中, 动作的选取 由
行动者网络完成, 该方法在小 型连续动作空间任务上效果显著, 且收敛较快。 对于大型连续
动作空间任务, 效果却 不尽如人意。 这是因为深度确定性策略梯度方法在任务的整个状态
空间中采用同一个行动者网络, 而随着状态空间的增大, 不同状态部分采用一个网络会导
致单个行动者网络压力剧增难以学到优秀的目标策略。 即使在耗费大量时间量时能学习到
优秀的目标 策略, 训练过程 也会存在巨大的波动, 难以稳定收敛。
发明内容
[0004]为了解决上述至少一个技术问题, 本发明提出了一种基于环境交互的机器人实时
控制方法。
[0005]本发明第一方面提供了一种基于环境交互的机器人实时控制方法, 包括如下步
骤:
[0006]S1, 初始化行动者网络参数为
评论家网络为θQ,目标网络行
动者参数为
和目标评论家参数θQ′←θQ,经验缓冲池
E1, E2,…, EN, 各个阶段间隔时间步M, (其中, 强化学习中, 时间步为基本的时间单位, 间隔时
间步表示从第一阶段到下一个阶段即第二个阶段经历的时间步数)使用K ‑means对已有样
本进行聚类学习至数据收敛;
[0007]S2,获取机器人初始状态st, 判断机器人初始状态st所属类簇中心;说 明 书 1/5 页
3
CN 114872049 A
3
专利 一种基于环境交互的机器人实时控制方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:19:38上传分享