专利 基于领域知识图谱启动送电方案文本自动抽取方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210817271.0 (22)申请日 2022.07.12 (66)本国优先权数据 202210441327.7 202 2.04.25 CN (71)申请人国网安徽省电力有限公司地址 230022 安徽省合肥市包河区黄山路9 号申请人天津弘源慧能科技有限公司 (72)发明人于洋　戴长春　王同文　汪伟　谢民　邵庆祝　俞斌　张骏　李铁柱　杨宗权　叶远波　王栋　张沛　饶国政　 (74)专利代理机构天津才智专利商标代理有限公司 12108 专利代理师黄斌(51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06Q 50/06(2012.01) (54)发明名称基于领域知识图谱启动送电方案文本自动抽取方法及装置 (57)摘要本发明提供了一种基于领域知识图谱启动送电方案文本自动抽取方法及装置，涉及人工智能的技术领域，方法包括：获取第一启动送电方案文本，并对启动送电方案文本采用K ‑means方法进行数据聚类以获取第二启动送电方案文本；基于第二启动送电方案文本构建知识图谱并对知识图谱进行自动标注以获取训练数据；构建 Transformer模型，以对训练数据的实体关系进行抽取以对Transformer模型进行训练。通过本发明可以缓解现有技术中送电方案文本更新信息的维护量大，耗费人工成本的技术问题，提高了送电方案文本抽取的智能性，同时提高了电网送电的安全性。权利要求书2页说明书10页附图3页 CN 115238090 A 2022.10.25 CN 115238090 A 1.一种基于领域知识图谱启动送电方案文本自动抽取方法，其特征在于，包括：获取第一启动送电方案文本，并对所述启动送电方案文本采用K ‑means方法进行数据聚类以获取第二启动送电方案文本；基于所述第二启动送电方案文本构建知识图谱并对所述知识图谱进行自动标注以获取训练数据；构建Transformer模型，以对所述训练数据的实体关系进行抽取以对所述Transformer 模型进行训练。 2.根据权利要求1所述的方法，其特征在于，所述基于所述第二启动送电方案文本构建知识图谱并对所述知识图谱进行自动标注以获取训练数据的步骤包括：获取第二启动送电方案文本内的实体类型，并获取高频操作以及状态转移过程、高频操作以及状态转移过程映射；获取先验知识，并基于所述第二启动送电方案文本内的实体类型以及所述先验知识构建电网领域专业词汇映射。 3.根据权利要求2所述的方法，其特征在于，所述基于所述第二启动送电方案文本构建知识图谱并对所述知识图谱进行自动标注以获取训练数据的步骤包括：基于所述第二启动送电方案文本，获取第二启动送电方案文本的实体集合；获取所述第二启动送电方案文本的实体集合的元素并判断所述知识图谱中是否存在对应的节点以及节点映射关系；若是，则基于所述第二启动送电方案文本的实体集合的元素在知识图谱中对应的节点已经节点映射关系构建关系三元组，将所述第二启动送电方案文本的实体集合的元素从所述第二启动送电方案文本的实体集合中剔除，并执行所述获取第二启动送电方案文本的实体集合的步骤；若否，则，将所述第二启动送电方案文本的实体集合的元素从所述第二启动送电方案文本的实体集合中剔除，并执行所述获取第二启动送电方案文本的实体集合的步骤。 4.根据权利要求1所述的方法，其特征在于，所述Transformer模型包括嵌入层抽取层；所述抽取层包括Transformer编码器、 Transformer解码器以及分类器；所述Transformer编码器包括多头自注意力层以及前馈神经网络层。 5.根据权利要求4所述的方法，其特征在于，所述对所述训练数据的实体关系进行抽取以对所述Transformer模型进行训练的步骤包括：初始化所述Transformer模型的参数，并获取所述训练数据；基于Transformer编码器获取经所述嵌入层处理的训练数据，以对所述多头自注意力层的参数进行调节；所述分类器经所述Transformer解码器获取分类输出结果以对所述Transformer模型中所述前馈神经网络层进行反馈调节直至迭代结束。 6.根据权利要求5所述的方法，其特征在于，采用如下公式对所述多头自注意力层的参数进行调节： Q＝XWq； K＝XWk； V＝XWv；权　利　要　求　书 1/2 页 2 CN 115238090 A 2Wq、 Wk以及Wv为可训练的注意力参数矩阵； X—嵌入层输入的嵌入向量。 7.根据权利要求5所述的方法，其特征在于，对所述Transformer模型中所述前馈神经网络层进行反馈调节的步骤包括：具体采用如下公式： Z＝concat(Z1,Z2,Z3,...,Zn) output＝relu(ZW1+b1)W2+b2； relu——激活函数； W1、 W2、 b1、 b2—两个训练参数矩阵它们的偏置。 8.一种基于领域知识图谱启动送电方案文本自动抽取装置，其特征在于，包括：数据获取模块：用于获取第一启动送电方案文本，并对所述启动送电方案文本采用K ‑ means方法进行数据聚类以获取第二启动送电方案文本；知识图谱构建模块：用于基于所述第二启动送电方案文本构建知识图谱并对所述知识图谱进行自动标注以获取训练数据；训练模块：用于构建Transformer模型，以对所述训练数据的实体关系进行抽取以对所述Transformer模型进行训练。权　利　要　求　书 2/2 页 3 CN 115238090 A 3

专利 基于领域知识图谱启动送电方案文本自动抽取方法及装置

专利基于领域知识图谱启动送电方案文本自动抽取方法及装置