专利 基于强化学习的市场动态申报策略的方法、装置以及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211070199.6 (22)申请日 2022.09.02 (71)申请人国网吉林省电力有限公司地址 130000 吉林省长春市南关区人民大街10388号 (72)发明人孙勇　金龙云　张继权　熊健　李一明　张磊　苏阔　刘畅　史坤鹏　 (74)专利代理机构北京细软智谷知识产权代理有限责任公司 1 1471 专利代理师涂凤琴 (51)Int.Cl. G06Q 30/02(2012.01) G06Q 50/06(2012.01) G06N 20/00(2019.01)G06K 9/62(2022.01) (54)发明名称基于强化学习的市场动态申报策略的方法、装置以及设备 (57)摘要本申请涉及人工智能以及电网控制技术领域，尤其涉及基于强化学习的市场动态申报策略的方法、装置以及设备，包括：获取综合能源系统运行基础数据；基于所述综合能源系统运行基础数据，得到策略和场景间的最优匹配性分析；基于所述最优匹配性分析，通过申报策略库中筛选最优策略，得到申报方案。本申请有助于通过挖掘申报策略和决策场景间的内在匹配关系，实现申报策略的自适应决策，根据实际决策场景特征，选择最适宜的申报策略方法，制定申报方案，进一步有效提升综合能源系统现货市场申报决策准确性，提高其市场交易效益。权利要求书1页说明书9页附图3页 CN 115392978 A 2022.11.25 CN 115392978 A 1.基于强化学习的市场动态申报策略的方法，其特征在于，所述方法包括: 获取综合能源系统运行基础数据；基于所述综合能源系统运行基础数据，构建申报策略智能体模型,得到策略和场景间的最优匹配性分析；基于所述最优匹配性分析，通过申报策略库中筛选最优策略，得到申报方案。 2.根据权利要求1所述的方法，其特征在于，构建所述申报策略智能体模型，包括：通过Q强化学习算法，设计其环境变量、动作空间和奖励函数三方面要素，得到策略场景间的最优匹配性分析；所述环境变量包括：市场交易类，包括：指标发电需求、新能源发电预测、常规机组开机容量、燃料价格指数；自身特征类，包括：自身用电需求、自身供热需求、自身制冷需求和自身新能源发电预测、自身储能装置储电量。 3.根据权利要求2所述的方法，其特征在于，所述动作空间，包括：通过智能体决策得到综合能源系统申报策略集合；基于得到的综合能源系统申报策略集合，得到所述环境变量所描述的交易场景下的最优申报策略；所述得到所述环境变量所描述的交易场景下的最优申报策略的公式为： A＝{a1,a2,…aN} 式中， N为动作空间中申报策略库可选申报策略数量即所述综合能源系统申报策略集合； a1、 a2、……aN依次表示排序第1、第2至第N个申报策略是否被选中的动作状态变量，取值为0或1；当取值为1时，表明该申报策略被选中；否则，表明该策略未被选中。 4.根据权利要求1所述的方法，其特征在于，所述基于所述最优匹配性分析，通过申报策略库中筛选最优策略，得到申报方案，包括：基于所述综合能源系统运行基础数据，通过贪心策略对构建的所述申报策略智能体模型进行训练，得到申报方案。 5.基于强化学习的市场动态申报策略的装置，其特征在于，所述装置包括：获取模块，用于获取综合能源系统运行基础数据；策略构模块，用于基于所述综合能源系统运行基础数据，得到策略和场景间的最优匹配性分析；策略训练模块，用于基于所述最优匹配性分析，通过申报策略库中筛选最优策略，得到申报方案。 6.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑4中任一项所述的方法。权　利　要　求　书 1/1 页 2 CN 115392978 A 2基于强化学习的市场动态申报策略的方法、装置以及设备技术领域 [0001]本申请涉及人工智能以及电网控制技术领域，尤其涉及基于强化学习的市场动态申报策略的方法、装置以及设备。背景技术 [0002]随着我国电力市场改革不断深化，放开发用电计划政策加速落地，电力市场交易对发用电企业运行效益的影响愈发凸显，由此产生了市场成员交易申报策略制定问题。特别是随着现货市场加速建设，市场交易复杂性显著提升，市场成员对高效准确的市场交易申报策略需求愈发迫切。现有技术中，申报策略具有一定的局限性，即申报策略不能完全适用于综合能源系统实际申报竞价决策期间的市场环境，无法满足申报策略与竞价环境的自适应,使得市场交易效益无法达到预期水平。发明内容 [0003]为至少在一定程度上克服相关技术申报策略不能完全适用于综合能源系统实际申报竞价决策期间的市场环境，无法满足申报策略与竞价环境的自适应的问题，本申请提供基于强化学习的市场动态申报策略的方法、装置以及设备。 [0004]本申请的方案如下： [0005]一方面，本申请提供基于强化学习的市场动态申报策略的方法，所述方法包括: [0006]获取综合能源系统运行基础数据； [0007]基于所述综合能源系统运行基础数据，构建申报策略智能体模型,得到策略和场景间的最优匹配性分析； [0008]基于所述最优匹配性分析，通过申报策略库中筛选最优策略，得到申报方案。 [0009]进一步地，构建所述申报策略智能体模型，包括： [0010]通过Q强化学习算法，设计其环境变量、动作空间和奖励函数三方面要素，得到策略场景间的最优匹配性分析； [0011]所述环境变量包括：市场交易类，包括：指标发电需求、新能源发电预测、常规机组开机容量、燃料价格指数； [0012]自身特征类，包括：自身用电需求、自身供热需求、自身制冷需求和自身新能源发电预测、自身储能装置储电量。 [0013]进一步地，所述动作空间，包括： [0014]通过智能体决策得到综合能源系统申报策略集合； [0015]基于得到的综合能源系统申报策略集合，得到所述环境变量所描述的交易场景下的最优申报策略； [0016]所述得到所述环境变量所描述的交易场景下的最优申报策略的公式为： [0017]A＝{a1,a2,…aN} [0018]式中， N为动作空间中申报策略库可选申报策略数量即所述综合能源系统申报策说　明　书 1/9 页 3 CN 115392978 A 3

专利 基于强化学习的市场动态申报策略的方法、装置以及设备

专利基于强化学习的市场动态申报策略的方法、装置以及设备