(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210452186.9
(22)申请日 2022.04.27
(65)同一申请的已公布的文献号
申请公布号 CN 114559439 A
(43)申请公布日 2022.05.31
(73)专利权人 南通科美自动化科技有限公司
地址 226100 江苏省南 通市海门区滨江街
道滨港大道 2699号
专利权人 上海应用技 术大学
(72)发明人 谷梦勖 万衡 黄泽锋 肖丹
贾云茜 刘加尧
(74)专利代理 机构 上海点威知识产权代理有限
公司 31326
专利代理师 胡志强(51)Int.Cl.
B25J 9/16(2006.01)
(56)对比文件
CN 112925319 A,2021.0 6.08
CN 109241552 A,2019.01.18
WO 2021013190 A1,2021.01.28
CN 113421345 A,2021.09.21
CN 110490114 A,2019.1 1.22
审查员 朱哲
(54)发明名称
一种移动机器人智能避障控制方法、 装置和
电子设备
(57)摘要
本说明书实施例提供一种移动机器人智能
避障控制方法, 搭建具有感知层、 网络层和应用
层的避障系统, 通过所述 感知层实时 收集机器人
传感器采集的运动实况信息, 并识别碰撞风险,
当识别到碰撞风险后将运动实况信息传递至网
络层, 通过网络层中预先构建的鲸群融合学习模
型以迭代的方式为所述运动实况生成动作策略
并进行目标决策, 迭代至预设条件后输出最优的
动作策略, 通过所述应用层 按照所述最优的动作
策略生成控制指令进行避障。 通过在识别碰撞风
险后利用鲸群融合学习模型以迭代的方式为所
述运动实况生成动作策略并进行目标决策, 能够
得到全局最优的动作策略, 按照这种最优的动作
策略进行避障, 能提高移动的稳定性和效率。
权利要求书3页 说明书9页 附图4页
CN 114559439 B
2022.07.26
CN 114559439 B
1.一种移动机器人智能避障控制方法, 其特 征在于, 包括:
搭建具有感知层、 网络层和应用 层的避障系统, 通过所述感知层实时收集机器人传感
器采集的运动实况信息, 并识别碰撞风险, 当识别到碰撞风险后将运动 实况信息传递至网
络层;
通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况信息生成
动作策略并进行目标决策, 迭代至预设条件后输出最优的动作策略;
通过所述应用层按照所述 最优的动作策略生成控制指令进行避障;
其中, 所述将运动实况信息传递至网络层,包括:
所述运动实况信 息包括传感器采集的环境信 息和机器人状态信 息, 通过马尔可夫 决策
构建以环境信息、 机器人状态信息和动作策略为输入项的奖励函数, 并将所述环境信息和
所述机器人状态信息转换成观察空间、 动作空间, 传递至网络层中的鲸群融合学习模型;
所述通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成
动作策略并进行目标决策, 迭代至预设条件后输出最优的动作策略, 包括:
所述鲸群融合学习模型包含混沌鲸群模型和融合预测模型, 所述融合预测模型以所述
奖励函数为目标函数, 通过所述混沌 鲸群模型生成动作策略集, 并将所述动作策略集、 观 察
空间和动作空间输入融合预测模型中, 通过融合预测模型预测向观察空间与动作空间施行
所述动作策略集时的奖励值, 根据该奖励值调整动作策略集继续进行迭代, 直至迭代次数
满足阈值, 输出最优的动作策略;
其中, 所述奖励函数为:
其中,
为每一次决策的消 极奖励,
为切向运行奖励,
为法向运行奖励, 法向运
行奖励权重系数是切向运行奖励权重系数的1.5倍,
为碰撞奖励,
为前
进参数或后退参数,
表示轨道偏离度, vmax为机器人的最大 行驶速度。
2.根据权利要求1所述的方法, 其特征在于, 所述运动实况信息为时间序列集合Ot=
(lt,pt,dt,vt,ge), lt为周围环境数据, pt为全局坐标系下位置, dt为机器人姿势角, vt为机器
人行驶速度, ge为机器人局部目标点。
3.根据权利要求1所述的方法, 其特 征在于, 所述融合预测模型包 含两层多个 基模型。
4.根据权利要求3所述的方法, 其特征在于, 所述多个基模型包括: 随机森林回归基模
型、 K最近邻回归基模型和支持向量机回归基模型。权 利 要 求 书 1/3 页
2
CN 114559439 B
25.根据权利要求1所述的方法, 其特征在于, 所述根据该奖励值调整动作策略集继续进
行迭代, 包括:
根据多个动作策略中奖励值 最大的动作策略生成多个动作策略进行迭代。
6.一种移动机器人智能避障控制装置, 其特 征在于, 包括:
系统搭建模块, 搭建具有感知 层、 网络层和应用层的避障系统;
风险识别模块, 通过所述感知层实时收集机器人传感器采集的运动实况信息, 并识别
碰撞风险, 当识别到 碰撞风险后将运动实况信息传递至网络层;
动作策略模块, 通过网络层中预先构建的鲸群融合学习 模型以迭代的方式为所述运动
实况信息生成动作策略并进行目标决策, 迭代至预设条件后输出最优的动作策略;
控制模块, 通过 所述应用层按照所述 最优的动作策略生成控制指令进行避障;
其中, 所述将运动实况信息传递至网络层, 包括:
所述运动实况信 息包括传感器采集的环境信 息和机器人状态信 息, 通过马尔可夫 决策
构建以环境信息、 机器人状态信息和动作策略为输入项的奖励函数, 并将所述环境信息和
所述机器人状态信息转换成观察空间、 动作空间, 传递至网络层中的鲸群融合学习模型;
所述通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成
动作策略并进行目标决策, 迭代至预设条件后输出最优的动作策略, 包括:
所述鲸群融合学习模型包含混沌鲸群模型和融合预测模型, 所述融合预测模型以所述
奖励函数为目标函数, 通过所述混沌 鲸群模型生成动作策略集, 并将所述动作策略集、 观 察
空间和动作空间输入融合预测模型中, 通过融合预测模型预测向观察空间与动作空间施行
所述动作策略集时的奖励值, 根据该奖励值调整动作策略集继续进行迭代, 直至迭代次数
满足阈值, 输出最优的动作策略;
其中, 所述奖励函数为:
其中,
为每一次决策的消极奖励,
为切向运行奖励,
为法向运行奖励, 法向运
行奖励权重系数是切向运行奖励权重系数的1.5倍,
为碰撞奖励,
为前
进参数或后退参数,
表示轨道偏离度, vmax为机器人的最大 行驶速度。
7.一种电子设备, 其中, 该电子设备包括:
处理器; 以及,
存储计算机可执行程序的存储器, 所述可执行程序在被执行时使所述处理器执行根据权 利 要 求 书 2/3 页
3
CN 114559439 B
3
专利 一种移动机器人智能避障控制方法、装置和电子设备
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:22:20上传分享