(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211070199.6
(22)申请日 2022.09.02
(71)申请人 国网吉林省电力有限公司
地址 130000 吉林省长 春市南关区人民大
街10388号
(72)发明人 孙勇 金龙云 张继权 熊健
李一明 张磊 苏阔 刘畅
史坤鹏
(74)专利代理 机构 北京细软智谷知识产权代理
有限责任公司 1 1471
专利代理师 涂凤琴
(51)Int.Cl.
G06Q 30/02(2012.01)
G06Q 50/06(2012.01)
G06N 20/00(2019.01)G06K 9/62(2022.01)
(54)发明名称
基于强化学习的市场动态申报策略的方法、
装置以及设备
(57)摘要
本申请涉及人工智能以及电网控制技术领
域, 尤其涉及基于强化学习的市场动态申报策略
的方法、 装置以及设备, 包括: 获取综合能源系统
运行基础数据; 基于所述 综合能源系统运行基础
数据, 得到策略和场景间的最优匹配性分析; 基
于所述最优匹配性分析, 通过申报策略库中筛选
最优策略, 得到申报方案。 本申请有助于通过挖
掘申报策略和决策场景间的内在匹配 关系, 实现
申报策略的自适应决策, 根据实际决策场景特
征, 选择最适宜的申报策略方法, 制定申报方案,
进一步有效提升综合能源系统现货市场申报决
策准确性, 提高其市场交易效益。
权利要求书1页 说明书9页 附图3页
CN 115392978 A
2022.11.25
CN 115392978 A
1.基于强化学习的市场动态申报策略的方法, 其特 征在于, 所述方法包括:
获取综合能源系统运行基础数据;
基于所述综合能源系统运行基础数据, 构建申报策略智能体模型,得到策略和场景间
的最优匹配性分析;
基于所述 最优匹配性分析, 通过申报策略库中筛 选最优策略, 得到申报方案 。
2.根据权利要求1所述的方法, 其特 征在于, 构建所述申报策略智能体模型, 包括:
通过Q强化学习算法, 设计其环境变量、 动作空间和奖励函数三方面要素, 得到策略场
景间的最优匹配性分析;
所述环境变量包括: 市场交易类, 包括: 指标发电需求、 新能源发电预测、 常规机组开机
容量、 燃料价格指数;
自身特征类, 包括: 自身用电需求、 自身供热需求、 自身制冷需求和自身新能源发电预
测、 自身储能装置储电量。
3.根据权利要求2所述的方法, 其特 征在于, 所述动作空间, 包括:
通过智能体决策 得到综合能源系统申报策略集 合;
基于得到的综合 能源系统申报策略集合, 得到所述环境变量所描述的交易场景下的最
优申报策略;
所述得到所述环境变量所描述的交易场景 下的最优申报策略的公式为:
A={a1,a2,…aN}
式中, N为动作空间中申报策略库可选申报策略数量即所述综合能源系统申报策略集
合; a1、 a2、……aN依次表示排序第1、 第2至第N个申报策略是否被选中的动作状态变量, 取值
为0或1;
当取值为1时, 表明该申报策略被选中;
否则, 表明该 策略未被选中。
4.根据权利要求1所述的方法, 其特征在于, 所述基于所述最优匹配性分析, 通过申报
策略库中筛 选最优策略, 得到申报方案, 包括:
基于所述综合能源系统运行基础数据, 通过贪心策略对构建的所述申报策略智能体模
型进行训练, 得到申报方案 。
5.基于强化学习的市场动态申报策略的装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取综合能源系统运行基础数据;
策略构模块, 用于基于所述综合能源系统运行基础数据, 得到策略和场景间的最优匹
配性分析;
策略训练模块, 用于基于所述最优 匹配性分析, 通过申报策略库中筛选最优策略, 得到
申报方案 。
6.一种电子设备, 其特 征在于, 包括:
至少一个处 理器; 以及
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处
理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑4中任一项所述的方法。权 利 要 求 书 1/1 页
2
CN 115392978 A
2基于强化学习的市场动态申报策略的方 法、 装置以及设 备
技术领域
[0001]本申请涉及人工智能以及电网控制技术领域, 尤其涉及基于强化学习的市场动态
申报策略的方法、 装置以及设备。
背景技术
[0002]随着我国电力市场改革不断深化, 放开发用电计划政策加速落地, 电力市场交易
对发用电企业运行效益的影响愈发凸显, 由此产生了市场成员交易申报策略制 定问题。 特
别是随着现货市场加速建设, 市场交易复杂性显著提升, 市场成员对高效准确的市场交易
申报策略需求愈发迫切。 现有技术中, 申报策略具有一定的局限性, 即申报策略不能完全适
用于综合能源系统实际申报竞价决策期间的市场环境, 无法满足申报策略与竞价环境的自
适应,使得市场交易效益无法达 到预期水平。
发明内容
[0003]为至少在一定程度上克服相关技术申报策略不能完全适用于综合能源系统实际
申报竞价决策期间的市场环境, 无法满足申报策略与竞价环境的自适应的问题, 本申请提
供基于强化学习的市场动态申报策略的方法、 装置以及设备。
[0004]本申请的方案如下:
[0005]一方面, 本申请提供基于强化学习的市场动态申报策略的方法, 所述方法包括:
[0006]获取综合能源系统运行基础数据;
[0007]基于所述综合能源系统运行基础数据, 构建申报策略智能体模型,得到策略和场
景间的最优匹配性分析;
[0008]基于所述 最优匹配性分析, 通过申报策略库中筛 选最优策略, 得到申报方案 。
[0009]进一步地, 构建所述申报策略智能体模型, 包括:
[0010]通过Q强化学习算法, 设计其环境变量、 动作空间和奖励函数三方面要素, 得到策
略场景间的最优匹配性分析;
[0011]所述环境变量包括: 市场交易类, 包括: 指标发电需求、 新能源发电预测、 常规机组
开机容量、 燃料价格指数;
[0012]自身特征类, 包括: 自身用电需求、 自身供热需求、 自身制冷需求和自身新能源发
电预测、 自身储能装置储电量。
[0013]进一步地, 所述动作空间, 包括:
[0014]通过智能体决策 得到综合能源系统申报策略集 合;
[0015]基于得到的综合能源系统申报 策略集合, 得到所述环境变量所描述的交易场景下
的最优申报策略;
[0016]所述得到所述环境变量所描述的交易场景 下的最优申报策略的公式为:
[0017]A={a1,a2,…aN}
[0018]式中, N为动作空间中申报策略库可选申报策略数量即所述综合能源系统申报策说 明 书 1/9 页
3
CN 115392978 A
3
专利 基于强化学习的市场动态申报策略的方法、装置以及设备
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:38:46上传分享