专利 数据处理方法及装置、存储介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210539554.3 (22)申请日 2022.05.18 (71)申请人国网数字科技控股有限公司地址 100000 北京市西城区广安门内大街 311号祥龙商务大厦1号楼申请人国网电商科技有限公司　天津大学 (72)发明人李勇　张小旺　李爽　吴林娟　贾江凯　郝怡　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师郄晨芳 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01)G06F 40/289(2020.01) G06N 3/04(2006.01) G06Q 30/06(2012.01) (54)发明名称数据处理方法及装置、存储介质及电子设备 (57)摘要本发明提供了一种数据处理方法及装置、存储介质及电子设备，其中，可以获取对象描述文本；将对象描述文本输入到预先训练好的表示模型中，获得表示模型输出的表示向量；应用预先训练好的实体识别模型对表示向量进行识别，获得对象描述文本对应的实体识别信息；将实体识别信息分别输入到预先训练好的关系处理模型和对象分类模型中，获得关系处理模型输出的关系标注序列和对象分类模型输出的对象分类结果；关系标注序列包括实体以及实体的属性关系标注；根据关系标注序列以及对象分类结果，构建对象描述文本所属的目标对象的知识图谱。能够根据对象描述文本获得实体、实体的属性关系标注和对象分类结果，进而能够高质量的构建目标对象的知识图谱。权利要求书3页说明书12页附图5页 CN 114936290 A 2022.08.23 CN 114936290 A 1.一种数据处理方法，其特征在于，包括：响应于数据处理指令，获取所述数据处理指令对应的对象描述文本；将所述对象描述文本输入到预先训练好的表示模型中，获得所述表示模型输出的表示向量；应用预先训练好的实体识别模型对所述表示向量进行识别，获得所述对象描述文本对应的实体识别信息；将所述实体识别信息分别输入到预先训练好的关系处理模型和对象分类模型中，获得所述关系处理模型输出的关系标注序列和所述对象分类模型输出的对象分类结果；所述关系标注序列包括实体以及所述实体的属性关系标注；根据所述关系标注序列以及所述对象分类结果，构建所述对象描述文本所属的目标对象的知识图谱。 2.根据权利要求1所述的方法，其特征在于，训练所述表示模型的过程，包括：获取各个原始描述文本，并确定每个所述原始描述文本所属的对象的对象类型；对每个所述原始描述文本进行分词处理，获得每个所述原始描述文本的分词；确定出每个所述原始描述文本的各个分词中的备选掩码分词；对每个所述原始描述文本中的至少一个备选掩码分词进行掩码处理；根据每个所述原始描述文本的对象类型为每个掩码处理后的所述原始描述文本设置分类标签，获得每个所述原始描述文本对应的第一训练数据；根据各个所述第一训练数据以及预设的第一损失函数对预先构建的表示模型进行训练，得到训练好的表示模型，所述第一损失函数包括掩码损失项、片段损失项和多分类交叉熵损失项。 3.根据权利要求2所述的方法，其特征在于，训练所述实体识别模型、所述关系处理模型和所述对象分类模型的过程，包括：为每个所述原始描述文本对应的第一训练数据设置每个原始描述文本对应的实体关系标签，获得每个所述原始描述文本对应的第二训练数据；应用每个所述第二训练数据训练预先构建的实体识别模型、关系处理模型和对象分类模型，得到训练好的实体识别模型、关系处理模型和对象分类模型。 4.根据权利要求3所述的方法，其特征在于，应用每个所述第二训练数据训练预先构建的实体识别模型和关系处理模型的过程，包括：应用已训练好的所述表示模型对所述第二训练数据进行处理，获得所述第二训练数据对应的表示向量；将所述第二训练数据对应的表示向量输入到预先构建的实体识别模型，获得所述预先构建的实体识别模型输出的实体识别信息；将所述实体识别信息输入到预先构建的关系处理模型，获得所述预先构建的关系处理模型输出的关系序列；应用预设的第二损失函数基于所述关系序列以及所述第二训练数据的实体关系标签，计算得到所述关系序列对应的损失函数值；利用所述关系序列对应的损失函数值调整所述预先构建的实体识别模型的网络参数和所述预先构建的关系处理模型的网络参数，以实现对所述预先构建的实体识别模型和所权　利　要　求　书 1/3 页 2 CN 114936290 A 2述预先构建的关系处理模型的训练。 5.根据权利要求3所述的方法，其特征在于，应用每个所述第二训练数据训练预先构建的对象分类模型的过程，包括：应用已训练好的所述表示模型对所述第二训练数据进行处理，获得所述第二训练数据对应的表示向量；将所述第二训练数据对应的表示向量输入到已训练好的实体识别模型，获得所述实体识别模型输出的与所述第二训练数据相对应的实体识别信息；将与所述第二训练数据相对应的实体识别信息输入到预先构建的对象分类模型中，获得所述预先构建的对象分类模型输出的与所述第二训练数据相对应的分类结果；应用预设的第三损失函数基于所述分类结果以及所述第二训练数据的分类标签，计算得到所述分类结果对应的损失函数值；利用所述分类结果对应的损失函数值调整所述预先构建的对象分类模型的网络参数，以实现对所述预先构建的对象分类模型的训练。 6.根据权利要求2所述的方法，其特征在于，所述确定出每个所述原始描述文本的各个分词中的备选掩码分词，包括：确定所述原始描述文本的各个分词中的对象描述词，以及每个所述对象描述词的热度；根据每个所述对象描述词的热度在各个所述对象描述词中确定出备选掩码分词。 7.根据权利要求1所述的方法，其特征在于，所述获取所述数据处理指令对应的对象描述文本，包括：对数据处理指令进行解析，获得所述数据处理指令的指令信息；从所述指令信息中获得文本查询条件；在预设的文本存储区域中获得与所述文本查询条件相匹配的描述文本；将与所述文本查询条件相匹配的描述文本，确定为所述数据处理指令对应的对象描述文本。 8.一种数据处理装置，其特征在于，包括：获取单元，用于响应数据处理指令，获取所述数据处理指令对应的对象描述文本；第一执行单元，用于将所述对象描述文本输入到预先训练好的表示模型中，获得所述表示模型输出的表示向量；第二执行单元，用于应用预先训练好的实体识别模型对所述表示向量进行识别，获得所述对象描述文本对应的实体识别信息；第三执行单元，用于将所述实体识别信息分别输入到预先训练好的关系处理模型和对象分类模型中，获得所述关系处理模型输出的关系标注序列和所述对象分类模型输出的对象分类结果；所述关系标注序列中包括实体以及所述实体的属性关系标注；构建单元，用于根据所述关系标注序列以及所述对象分类结果，构建所述对象描述文本所属的目标对象的知识图谱。 9.一种存储介质，其特征在于，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～7任意一项所述的数据处理方法。 10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个权　利　要　求　书 2/3 页 3 CN 114936290 A 3

专利 数据处理方法及装置、存储介质及电子设备

专利数据处理方法及装置、存储介质及电子设备