安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210850929.8 (22)申请日 2022.07.19 (71)申请人 华东交通大 学 地址 330013 江西省南昌市经济技 术开发 区双港东大街808号 (72)发明人 黄晓辉 林嘉豪 周云飞  (74)专利代理 机构 北京东方盛凡知识产权代理 有限公司 1 1562 专利代理师 李哲 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 30/02(2012.01) G06Q 30/06(2012.01) G06Q 50/30(2012.01) G06N 7/00(2006.01) (54)发明名称 一种基于混合分层强化学习的网约车调度 方法 (57)摘要 本发明公开了一种基于混合分层强化学习 的网约车调度方法,包括以下步骤: 将网约车调 度过程构建为马尔科夫过程; 基于所述网约车调 度过程提取时间信息、 司机分布和订单分布进行 仿真处理, 构建司机与订单的时空分布矩阵; 构 建混合分层模 型, 所述混合分层学习高层决策和 低层决策, 为司机匹配订单获得调度结果; 将所 述调度结果进行存储和学习, 计算出所述高层决 策和低层决策的奖励, 更新模型; 所述混合分层 模型进行测试, 获得订单响应率和订单收益, 完 成网约车调度。 本发明利用分层强化学习实现了 网约车调度的多层次目标学习, 并使用混合模块 联合多层决策, 使得网约车能更高效的完成订 单。 权利要求书2页 说明书5页 附图3页 CN 115222251 A 2022.10.21 CN 115222251 A 1.一种基于混合分层强化学习的网约车调度方法, 其特 征在于, 包括以下步骤: 将网约车调度过程构建为马尔科 夫过程; 基于所述网约车调度过程提取时间信息、 司机分布和订单分布进行仿真处理, 构建司 机与订单的时空分布 矩阵; 构建混合分层模型, 所述混合分层学习高层决策和低层决策, 为司机匹配订单获得调 度结果; 将所述调度结果进行存 储和学习, 计算出 所述高层决策和低层决策的奖励, 更新模型; 所述混合分层模型进行测试, 获得订单响应率和订单收益, 完成网约车调度。 2.如权利要求1所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 所述网 约车调度过程由一个元组G=(N,S,R,A,P,γ)定义, 其中, N,S,R,A,P,γ分别是智能体数、 状态集、 奖励函数、 决策空间、 转移概 率函数、 和折扣因子 。 3.如权利要求2所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 所述网 约车调度过程具体定义包括: N的值相当于网格数量, 将每个司机为一个智能体, 同一时刻 同一空间下的所有智能体为一个智能体集, 同一个智能体集内的所有智能体有相同的决 策; S包括为一 天内所有时刻的全局状态与局部状态以及历史订单的分布, 全局状态为某时 刻的所有司机、 订单的分布, 局部状态为某时刻每个网格自己及相邻网格的司机、 订单分 布; R为做出每层决策后所服务到订单收益; A 为两层决策, 高层决策是管控司机是否参与定 点热门区域的服务, 低层决策是那些不参与热点服务订单的司机的调度; P为概率转移函 数。 4.如权利要求3所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 做出每 层决策后所服 务到订单收益, 获得 奖励, 计算如下, 其中, i表示第i个智能体集, R1,R2分别高层决策奖励与底层决策奖励, 为第i个智能 体集的高层决策, 为第i个智能体集的低层决策。 5.如权利要求1所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 选取仿 真区域, 模拟生成所述仿真区域的蜂窝地图, 对订单数据进行采样, 提取时间信息、 司机分 布和订单分布并根据时间段映射到网格中, 获取订单坐标与司机坐标; 首先将订单坐标空 间分布与司机坐标空间分布分布构建成两个一 维矩阵O,D, 用O ‑D就可以的得到当前可用车 辆的空间分布矩阵D ′, 连接矩阵O与D ′, 再在每个维度补充时间信息, 就得到了司机与订单 时空分布 矩阵。 6.如权利要求2所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 学习高 层决策的全局状态包括HOt+1,Dt,Ot, 其中Ot与Dt表示t时刻下的司机与订单的空间分布, HOt+1表示过去20天内t+1时刻下的订单的空间分布, 使用多头注意力机制提取三者之间的 关系, 公式为: MultiHead表示输出, h表示注意力的层数, w表 示参数矩阵, 表比例因子, 得到的结权 利 要 求 书 1/2 页 2 CN 115222251 A 2果经过前向传播、 残差连接与归一化等操作后得到Q1, Q1将对每个智能体集做出高级决策, 决定改智能体集是否参与附近热门地区的车辆调度。 7.如权利要求6所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 学习低 层决策的状态包括全局状态与局部状态两部分, 全局状态为Ot, 局部状态为智能体集所能 观测到局部信息 。 8.如权利要求1所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 计算出 所述高层决策和低层决策的奖励, 更新模 型包括: 采用off ‑policy训练所述调度结果, 计算 所述高层决策和低层决策 的奖励, 获得组合决策值函数, 计算每个时间片 内所采用的每种 调度所获得的收益, 分配给两层决策, 将一天内所有的状态, 奖励以及组合决策值更新模 型。权 利 要 求 书 2/2 页 3 CN 115222251 A 3

.PDF文档 专利 一种基于混合分层强化学习的网约车调度方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于混合分层强化学习的网约车调度方法 第 1 页 专利 一种基于混合分层强化学习的网约车调度方法 第 2 页 专利 一种基于混合分层强化学习的网约车调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:28:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。