(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210660941.2
(22)申请日 2022.06.13
(71)申请人 国网福建省电力有限公司
地址 350003 福建省福州市 鼓楼区五四路
257号
申请人 国网福建省电力有限公司厦门供电
公司
(72)发明人 高俊彦 殷自力 张功林 陈宇星
梁芙蓉 李宽宏 张振宇 甘乾昕
吴桐 黄亦昕 罗华玥 李英
许宇航 张水长 林艺滨 曾志川
陈祎超 赵建伟 李琦 黄章斌
韩超 俞晓雯 许志导 臧志斌
赵光 童明建 (74)专利代理 机构 福州元创专利商标代理有限
公司 35100
专利代理师 张灯灿 蔡学俊
(51)Int.Cl.
G06Q 10/06(2012.01)
G06Q 50/06(2012.01)
G06N 7/00(2006.01)
G06F 16/36(2019.01)
(54)发明名称
基于逆强化学习结合多因子多动作融合的
电网调度方法
(57)摘要
本发明涉及一种基于逆强化学习结合多因
子多动作融合的电网调度方法, 包括: 输入电网
调度相关的数据集; 将电网调度相关数据进行编
码, 构造出电网状态, 同时采样动作 指令编码; 构
建电网调度知识 图谱并更新为电网调度认知图
谱; 定义多跳评分函数; 利用先验知识构建基于
状态的调度元路径; 产生源电网状态到目标电网
状态的路径, 使用多跳评分函数计算路径中节点
多跳的得分评估, 产生强化学习的第一部分奖励
函数; 生成奖励函数, 结合第一部分奖励函数, 生
成总的奖励函数; 定义逆强化学习的马尔可夫过
程和逆强化学习策略更新框架; 训练产生基于逆
强化学习结合多因子多行为融合的电网调度策
略。 该方法有利于提高电网调度的合理性和灵活
性。
权利要求书5页 说明书7页 附图1页
CN 114997672 A
2022.09.02
CN 114997672 A
1.一种基于逆强化学习结合多因子多动作融合的电网调度方法, 其特征在于, 包括以
下步骤:
1)输入电网调度相关的数据集, 包括电网数据、 环境数据、 资源数据和作业数据, 以及
调度指令动作集;
2)将电网数据、 环境数据、 资源数据和作业数据使用自编码器进行编码, 然后将自编码
结果经过连接融合, 构造出电网状态, 同时从资源数据编码 中采样到相关资源调度的动作
指令编码;
3)利用电网调度的先验知识结合电网数据集中电网调度相关的实体状态和相应的调
度动作构建出对应的电网调 度知识图谱, 然后利用步骤2)获得的状态信息和 动作指令编码
更新电网调度知识图谱为电网调度认知图谱;
4)根据步骤3)得到的电网调度认知图谱, 基于当前源电网状态到目标电网状态的情况
定义多跳 评分函数;
5)定义多跳 评分函数后, 利用先验知识构建基于状态的调度元路径;
6)将步骤5)得到的基于状态的调度元路径作为强化学习决策过程中的先验指导, 生成
调度动作选择约束, 产生源电网状态到目标电网状态的路径, 使用多跳评分函数来计算路
径中节点多跳的得分评估, 产生强化学习的第一部分奖励函数;
7)基于步骤1)获得电网调度离线历史数据提取的经验状态转移路径和基于强化学习
策略学习到的状态转移路径做损失, 生 成奖励函数, 结合步骤6)得到的第一部 分奖励函数,
生成总的奖励函数;
8)在步骤7)中获得的奖励函数的基础上, 定义逆强化学习的马尔可夫过程和基于
actor‑critic的逆强化学习策略更新框架;
9)输入电网调度离线历史数据集, 首先依据步骤2)得到 的电网状态的Embedding和调
度动作的Embedding集以及步骤3)得到的电网调度 实例知识图谱, 构建具有实际意义的电
网调度实例知识图谱; 接着使用迪杰斯特拉算法计算得到基于电网调 度离线历史数据的最
短状态转移路径; 然后在步骤8)定义的马尔可夫过程和逆强化学习策略更新框架, 将电网
调度离线历史数据集中的节点状态和 动态组合的多动作输入到逆强化学习模型中, 使用逆
强化学习策略指导生成动作及动作路径, 然后使用基于电网调 度离线历史数据的最短状态
转移路径作为监督约束, 产生奖励函数, 驱动策略更新, 最 终训练产生基于逆强化学习结合
多因子多行为融合的电网调度策略。
2.根据权利要求1所述的基于逆强化学习结合多因子多动作融合的电网调度方法, 其
特征在于, 在步骤2)中, 根据步骤1)中获得的电网数据集中包含的电网数据、 环境数据、 资
源数据和作业数据, 定义自编码器对以上数据信息进行自编码, 同时从资源数据编码 中采
样到相关 资源调度的动作指令编码, 具体方法为:
201)获得电网数据, 环境数据, 资源数据和作业数据, 以及结合资源数据共同提取出调
度指令记录;
202)定义自编码网络 Encoder();
203)将电网调度历史数据中的各种信息通过自编码器进行编码;
204)将每个电网节点的状态作为知识图谱中的一个实体节点, 其中每个实体节点信息
由电网数据、 环境数据、 资源数据和作业数据这四个部 分的自编码信息融合而成; 将 针对每权 利 要 求 书 1/5 页
2
CN 114997672 A
2个电网节点状态做出的指 令动作作为 实体节点间的关联边, 这些边信息均可以从资源数据
中进行采样。
3.根据权利要求1所述的基于逆强化学习结合多因子多动作融合的电网调度方法, 其
特征在于, 在步骤3)中, 利用电网调度的先验知识结合电网数据集中电网调度相关的实体
状态和相应的调 度动作构建出对应的电网调度知识图谱, 然后利用步骤2)获得的状态信息
和动作指令编码更新电网调度知识图谱为电网调度认知图谱, 具体方法为:
301)根据电网调度历史数据集, 对整个电网数据集中的电网状态依据调度动作对应的
边进行关联, 最终构成一张包 含数据集中电网状态和调度动作的电网调度知识图谱;
302)结合步骤2)中的节点状态编码信息对所述电网调度知识图谱进行更新, 生成电网
调度认知图谱。
4.根据权利要求1所述的基于逆强化学习结合多因子多动作融合的电网调度方法, 其
特征在于, 在步骤4)中, 根据步骤3)得到的电网调 度认知图谱, 基于当前电网状态到目标电
网状态的情况定义多跳 评分函数, 具体方法为:
401)首先定义多跳路径中的实体, 路径的首位实体定义为e0, 结尾实体定义为et, 基于
电网调度知识图谱, 如果e0和et中间存在一系列的实体{e0,e1,...,et‑1}和它们之间的t个
关系即{r1,r2,...,rt}, 则基于认知图谱定义 一个确定的有效多跳路径
402)完成多跳路径的定义后, 定义多跳路径的评分函数, 针对多跳路径中的两个实体
和, 评分函数定义 为:
其中, j表示多跳路径中任意一个实体节点; 当t=0且j=0时, 该评分函数表示两个实
体向量之间的相似度, 即:
当t=1且j=1时, 该评分函数表示头实体加关系后和尾实体之间的相似度, 即:
从而完成基于知识图谱的多跳 评分函数的定义, 用于 评估两个 状态之间的相关性。
5.根据权利要求1所述的基于逆强化学习结合多因子多动作融合的电网调度方法, 其
特征在于, 在步骤5)中, 定义多跳评分函数后, 利用先验知识构建基于状态的调度元路径,
具体方法为:
501)依据认知图谱中包 含的电网状态类型和调度动作类型生成一系列的三元组;
502)依据先验知识, 对存在关系的三元组进行关联, 最终抽象出多条具有先验指导意
义的元路径, 指导强化学习智能体在对应 状态下进行调度动作选择。
6.根据权利要求1所述的基于逆强化学习结合多因子多动作融合的电网调度方法, 其
特征在于, 在步骤6)中, 以步骤5)得到的元路径, 约束强化学习智能体的搜索路径, 具体方
法为:
601)依据专 家先验知识定义 好多条元路径;
602)在强化学习中智能体的路径探索尝试过程中, 依据定义好的元路径来指导当前电
网状态进 行调度动作选择, 使得当前状态转移到下一个状态, 依次类推直到周期结束, 最 终权 利 要 求 书 2/5 页
3
CN 114997672 A
3
专利 基于逆强化学习结合多因子多动作融合的电网调度方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:14上传分享