专利 一种基于环境交互的机器人实时控制方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210610733.1 (22)申请日 2022.05.31 (71)申请人苏州大学地址 215123 江苏省苏州市苏州工业园区仁爱路199号 (72)发明人刘全　吴光军　朱斐　 (74)专利代理机构苏州翔远专利代理事务所 (普通合伙) 32251 专利代理师陆金星 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种基于环境交互的机器人实时控制方法 (57)摘要本发明公开的一种基于环境交互的机器人实时控制方法，包括初始化行动者网络参数，评论家网络为,目标网络行动者参数和目标评论家参数,经验缓冲池，各个阶段间隔时间步，使用K ‑ means对已有样本进行聚类学习至数据收敛；获取机器人初始状态st，判断机器人初始状态st所属类簇中心；通过摄像头采集的视频数据得出当前机器人的状态信息，然后将此信息通过以太网传输到后台服务器，得到机器人下一步该执行的动作a；执行动作a，获得立即奖赏，并获取机器人下一状态，将经验放入经验缓冲池；从经验缓冲池中随机采样小批量的n个经验转移样本；通过最小化损失函数更新评论家网络参数通过策略梯度方法更新行动者网络参数，更新目标网络参数。权利要求书1页说明书5页附图1页 CN 114872049 A 2022.08.09 CN 114872049 A 1.一种基于环境交互的机器人实时控制方法，其特征在于，包括如下步骤： S1，初始化行动者网络参数为评论家网络为θQ,目标网络行动者参数为和目标评论家参数θQ′←θQ,经验缓冲池E1， E2，…， EN，各个阶段间隔时间步M，使用K ‑means对已有样本进行聚类学习至数据收敛； S2,获取机器人初始状态st，判断机器人初始状态st所属类别； S3，通过摄像头采集的视频数据得出当前机器人的状态信息，然后将此信息通过以太网传输到后台服务器，得到机器人下一步该执行的动作a； S3，执行动作a，获得立即奖赏rt+1，并获取机器人下一状态st+1，将经验(st， at， rt+1， st+1) 放入经验缓冲池Ek，经验缓冲池用于存储经验转移样本； S4，从经验缓冲池Ek中随机采样小批量的n个经验转移样本(si， ai， ri+1， si+1)，经验转移样本指代的是智能体训练过程中产生的一系列变化样本，主要包括智能体当前的状态，执行的动作，执行该动作后从环境反馈得到的奖赏和执行动作后的状态，计算式中ri为从环境处得到的立即奖赏， γ为折扣因子； S5，通过最小化损失函数更新评论家网络参数通过策略梯度方法更新行动者网络参数，更新目标网络参数； S6，如果到达下一阶段，则将K ‑means判别器的类簇中心个数加一，并重新聚类至收敛，且重置阶段步长 C，如果状态是终止状态并且该情节步数已达到最大，则转入S2。 2.根据权利要求1所述的一种基于环境交互的机器人实时控制方法，其特征在于，通过 k‑means方法对初始状态进行判断，输出对应类别。 3.根据权利要求1所述的一种基于环境交互的机器人实时控制方法，其特征在于， S3 中摄像头采集的视频数据通过TMS320 C6670芯片进行分析。 4.根据权利要求1所述的一种基于环境交互的机器人实时控制方法，其特征在于，更新行动者目标网络和评论家目标网络参数，策略函数和价值函数均使用双网络架构，即分别设置预测网络和目标网络。 5.根据权利要求4所述的一种基于环境交互的机器人实时控制方法，其特征在于， S3 中服务器处理数据得到机器人下一步该执行的动作，然后将动作控制信息通过以太网再传回给芯片，控制机器人的执行。 6.根据权利要求1所述的一种基于环境交互的机器人实时控制方法，其特征在于， S5 中最小化损失函数来更新价值网络参数w，式中N为采样情节数。 7.根据权利要求1所述的一种基于环境交互的机器人实时控制方法，其特征在于， S5 中根据最大化目标函数来更新策略网络参数θ：式中N为采样情节数。权　利　要　求　书 1/1 页 2 CN 114872049 A 2一种基于环境交互的机器人实时控制方法技术领域 [0001]本发明涉及机器人控制领域，更具体的，涉及一种基于环境交互的机器人实时控制方法。背景技术 [0002]强化学习是一种在环境中不断自主学习，寻找规律最大化未来累计奖赏，从而寻找到最优策略的方法。具体来说，强化学习是根据智能体的当前状态，寻找可执行的动作，使获得的收益最大化，因此强化学习适合解决序贯决策问题。在传统强化学习中，主要有基于值函数的SARSA和Q ‑Learning两种方法。在经典强化学习任务，如Cart ‑Pole和Mou ntain‑ Car等低维状态空间任务，基于值函数类的方法有不错的效果。但在高维动作空间环境表现却不尽如人意。随着深度学习的发展，深度神经网络有高效地识别高维数据的能力，因此将深度学习与强化学习相结合的深度强化学习方法能解决高维动作空间问题，并在自然语言处理、自动驾驶、推荐系统等复杂动作状态空间任务领域有着不错的效果。 [0003]深度确定性策略梯度方法使用深度神经网络表达确定性策略，采用确定性策略梯度来更新网络参数，能够有效应用于大规模或连续动作空间的强化学习任务中。深度确定性策略梯度方法的价值网络作为评论家，用于评估策略，学习Q函数，为策略网络提供梯度信息。策略网络作为行动者，利用评论家学习到的Q函数及梯度信息对策略进行改进，同时也增加了带噪声的探索机制和软更新方法。在深度确定性策略梯度方法中，动作的选取由行动者网络完成，该方法在小型连续动作空间任务上效果显著，且收敛较快。对于大型连续动作空间任务，效果却不尽如人意。这是因为深度确定性策略梯度方法在任务的整个状态空间中采用同一个行动者网络，而随着状态空间的增大，不同状态部分采用一个网络会导致单个行动者网络压力剧增难以学到优秀的目标策略。即使在耗费大量时间量时能学习到优秀的目标策略，训练过程也会存在巨大的波动，难以稳定收敛。发明内容 [0004]为了解决上述至少一个技术问题，本发明提出了一种基于环境交互的机器人实时控制方法。 [0005]本发明第一方面提供了一种基于环境交互的机器人实时控制方法，包括如下步骤： [0006]S1，初始化行动者网络参数为评论家网络为θQ,目标网络行动者参数为和目标评论家参数θQ′←θQ,经验缓冲池 E1， E2，…， EN，各个阶段间隔时间步M， (其中，强化学习中，时间步为基本的时间单位，间隔时间步表示从第一阶段到下一个阶段即第二个阶段经历的时间步数)使用K ‑means对已有样本进行聚类学习至数据收敛； [0007]S2,获取机器人初始状态st，判断机器人初始状态st所属类簇中心；说　明　书 1/5 页 3 CN 114872049 A 3

专利 一种基于环境交互的机器人实时控制方法

专利一种基于环境交互的机器人实时控制方法