(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210850929.8
(22)申请日 2022.07.19
(71)申请人 华东交通大 学
地址 330013 江西省南昌市经济技 术开发
区双港东大街808号
(72)发明人 黄晓辉 林嘉豪 周云飞
(74)专利代理 机构 北京东方盛凡知识产权代理
有限公司 1 1562
专利代理师 李哲
(51)Int.Cl.
G06Q 10/06(2012.01)
G06Q 30/02(2012.01)
G06Q 30/06(2012.01)
G06Q 50/30(2012.01)
G06N 7/00(2006.01)
(54)发明名称
一种基于混合分层强化学习的网约车调度
方法
(57)摘要
本发明公开了一种基于混合分层强化学习
的网约车调度方法,包括以下步骤: 将网约车调
度过程构建为马尔科夫过程; 基于所述网约车调
度过程提取时间信息、 司机分布和订单分布进行
仿真处理, 构建司机与订单的时空分布矩阵; 构
建混合分层模 型, 所述混合分层学习高层决策和
低层决策, 为司机匹配订单获得调度结果; 将所
述调度结果进行存储和学习, 计算出所述高层决
策和低层决策的奖励, 更新模型; 所述混合分层
模型进行测试, 获得订单响应率和订单收益, 完
成网约车调度。 本发明利用分层强化学习实现了
网约车调度的多层次目标学习, 并使用混合模块
联合多层决策, 使得网约车能更高效的完成订
单。
权利要求书2页 说明书5页 附图3页
CN 115222251 A
2022.10.21
CN 115222251 A
1.一种基于混合分层强化学习的网约车调度方法, 其特 征在于, 包括以下步骤:
将网约车调度过程构建为马尔科 夫过程;
基于所述网约车调度过程提取时间信息、 司机分布和订单分布进行仿真处理, 构建司
机与订单的时空分布 矩阵;
构建混合分层模型, 所述混合分层学习高层决策和低层决策, 为司机匹配订单获得调
度结果;
将所述调度结果进行存 储和学习, 计算出 所述高层决策和低层决策的奖励, 更新模型;
所述混合分层模型进行测试, 获得订单响应率和订单收益, 完成网约车调度。
2.如权利要求1所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 所述网
约车调度过程由一个元组G=(N,S,R,A,P,γ)定义, 其中, N,S,R,A,P,γ分别是智能体数、
状态集、 奖励函数、 决策空间、 转移概 率函数、 和折扣因子 。
3.如权利要求2所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 所述网
约车调度过程具体定义包括: N的值相当于网格数量, 将每个司机为一个智能体, 同一时刻
同一空间下的所有智能体为一个智能体集, 同一个智能体集内的所有智能体有相同的决
策; S包括为一 天内所有时刻的全局状态与局部状态以及历史订单的分布, 全局状态为某时
刻的所有司机、 订单的分布, 局部状态为某时刻每个网格自己及相邻网格的司机、 订单分
布; R为做出每层决策后所服务到订单收益; A 为两层决策, 高层决策是管控司机是否参与定
点热门区域的服务, 低层决策是那些不参与热点服务订单的司机的调度; P为概率转移函
数。
4.如权利要求3所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 做出每
层决策后所服 务到订单收益, 获得 奖励, 计算如下,
其中, i表示第i个智能体集, R1,R2分别高层决策奖励与底层决策奖励,
为第i个智能
体集的高层决策,
为第i个智能体集的低层决策。
5.如权利要求1所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 选取仿
真区域, 模拟生成所述仿真区域的蜂窝地图, 对订单数据进行采样, 提取时间信息、 司机分
布和订单分布并根据时间段映射到网格中, 获取订单坐标与司机坐标; 首先将订单坐标空
间分布与司机坐标空间分布分布构建成两个一 维矩阵O,D, 用O ‑D就可以的得到当前可用车
辆的空间分布矩阵D ′, 连接矩阵O与D ′, 再在每个维度补充时间信息, 就得到了司机与订单
时空分布 矩阵。
6.如权利要求2所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 学习高
层决策的全局状态包括HOt+1,Dt,Ot, 其中Ot与Dt表示t时刻下的司机与订单的空间分布,
HOt+1表示过去20天内t+1时刻下的订单的空间分布, 使用多头注意力机制提取三者之间的
关系, 公式为:
MultiHead表示输出, h表示注意力的层数, w表 示参数矩阵,
表比例因子, 得到的结权 利 要 求 书 1/2 页
2
CN 115222251 A
2果经过前向传播、 残差连接与归一化等操作后得到Q1, Q1将对每个智能体集做出高级决策,
决定改智能体集是否参与附近热门地区的车辆调度。
7.如权利要求6所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 学习低
层决策的状态包括全局状态与局部状态两部分, 全局状态为Ot, 局部状态为智能体集所能
观测到局部信息 。
8.如权利要求1所述的基于混合分层强化学习的网约车调度方法, 其特征在于, 计算出
所述高层决策和低层决策的奖励, 更新模 型包括: 采用off ‑policy训练所述调度结果, 计算
所述高层决策和低层决策 的奖励, 获得组合决策值函数, 计算每个时间片 内所采用的每种
调度所获得的收益, 分配给两层决策, 将一天内所有的状态, 奖励以及组合决策值更新模
型。权 利 要 求 书 2/2 页
3
CN 115222251 A
3
专利 一种基于混合分层强化学习的网约车调度方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:28:00上传分享