(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210539554.3
(22)申请日 2022.05.18
(71)申请人 国网数字科技控股有限公司
地址 100000 北京市西城区广安门内大街
311号祥龙商务大厦1号楼
申请人 国网电商科技有限公司 天津大学
(72)发明人 李勇 张小旺 李爽 吴林娟
贾江凯 郝怡
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 郄晨芳
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/35(2019.01)
G06F 40/295(2020.01)G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06Q 30/06(2012.01)
(54)发明名称
数据处理方法及装置、 存 储介质及电子设备
(57)摘要
本发明提供了一种数据处理方法及装置、 存
储介质及电子设备, 其中, 可以获取对象描述文
本; 将对象描述文本输入到预先训练好的表示模
型中, 获得表示模型输出的表示向量; 应用预先
训练好的实体识别模型对表示向量进行识别, 获
得对象描述文本对应的实体识别信息; 将实体识
别信息分别输入到预先训练好的关系处理模型
和对象分类模 型中, 获得关系处理模 型输出的关
系标注序列和对象分类模型输出的对象分类结
果; 关系标注序列包括实体以及实体的属性关系
标注; 根据关系标注序列以及对象分类结果, 构
建对象描述文本所属的目标对象的知识图谱。 能
够根据对象描述文本获得 实体、 实体的属性关系
标注和对象分类结果, 进而能够高质量的构建目
标对象的知识图谱。
权利要求书3页 说明书12页 附图5页
CN 114936290 A
2022.08.23
CN 114936290 A
1.一种数据处 理方法, 其特 征在于, 包括:
响应于数据处 理指令, 获取 所述数据处 理指令对应的对象描述文本;
将所述对象描述文本输入到预先训练好的表示模型中, 获得所述表示模型输出的表示
向量;
应用预先训练好的实体识别模型对所述表示向量进行识别, 获得所述对象描述文本对
应的实体识别 信息;
将所述实体识别信 息分别输入到预先训练好的关系处理模型和对象分类模型中, 获得
所述关系处理模型输出的关系标注序列和所述对象分类模型输出的对象分类结果; 所述关
系标注序列包括实体以及所述实体的属性关系标注;
根据所述关系标注序列以及所述对象分类结果, 构建所述对象描述文本所属的目标对
象的知识图谱。
2.根据权利要求1所述的方法, 其特 征在于, 训练所述表示模型的过程, 包括:
获取各个原始描述文本, 并确定每 个所述原 始描述文本所属的对象的对象类型;
对每个所述原 始描述文本进行分词处 理, 获得每 个所述原 始描述文本的分词;
确定出每 个所述原 始描述文本的各个分词中的备选掩码分词;
对每个所述原 始描述文本中的至少一个备选掩码分词进行掩码处 理;
根据每个所述原始描述文本的对象类型为每个掩码处理后的所述原始描述文本设置
分类标签, 获得每 个所述原 始描述文本对应的第一训练数据;
根据各个所述第一训练数据以及预设的第一损失函数对预先构建的表示模型进行训
练, 得到训练好的表示模型, 所述第一损失函数包括掩码损失项、 片段损失项和多分类交叉
熵损失项。
3.根据权利要求2所述的方法, 其特征在于, 训练所述实体识别模型、 所述关系处理模
型和所述对象分类模型的过程, 包括:
为每个所述原始描述文本对应的第一训练数据设置每个原始描述文本对应的实体关
系标签, 获得每 个所述原 始描述文本对应的第二训练数据;
应用每个所述第 二训练数据训练预先构建的实体识别模型、 关系处理模型和对象分类
模型, 得到训练好的实体识别模型、 关系处 理模型和对象分类模型。
4.根据权利要求3所述的方法, 其特征在于, 应用每个所述第 二训练数据训练预先构建
的实体识别模型和关系处 理模型的过程, 包括:
应用已训练好的所述表示模型对所述第 二训练数据进行处理, 获得所述第 二训练数据
对应的表示向量;
将所述第二训练数据对应的表示向量输入到预先构建的实体识别模型, 获得所述预先
构建的实体识别模型输出的实体识别 信息;
将所述实体识别信 息输入到预先构建的关系处理模型, 获得所述预先构建的关系处理
模型输出的关系序列;
应用预设的第 二损失函数基于所述关系序列以及所述第 二训练数据的实体关系标签,
计算得到所述关系序列对应的损失函数值;
利用所述关系序列对应的损失函数值调整所述预先构建的实体识别模型的网络参数
和所述预先构建的关系处理模型的网络参数, 以实现对所述预先构建的实体识别模型和所权 利 要 求 书 1/3 页
2
CN 114936290 A
2述预先构建的关系处 理模型的训练。
5.根据权利要求3所述的方法, 其特征在于, 应用每个所述第 二训练数据训练预先构建
的对象分类模型的过程, 包括:
应用已训练好的所述表示模型对所述第 二训练数据进行处理, 获得所述第 二训练数据
对应的表示向量;
将所述第二训练数据对应的表示向量输入到已训练好的实体识别模型, 获得所述实体
识别模型输出的与所述第二训练数据相对应的实体识别 信息;
将与所述第二训练数据相对应的实体识别信 息输入到预先构建的对象分类模型中, 获
得所述预先构建的对象分类模型输出的与所述第二训练数据相对应的分类结果;
应用预设的第 三损失函数基于所述分类结果以及所述第 二训练数据的分类标签, 计算
得到所述分类结果对应的损失函数值;
利用所述分类结果对应的损失函数值调 整所述预先构建的对象分类模型的网络参数,
以实现对所述预 先构建的对象分类模型的训练。
6.根据权利要求2所述的方法, 其特征在于, 所述确定出每个所述原始描述文本的各个
分词中的备选掩码分词, 包括:
确定所述原始描述文本的各个分词中的对象描述词, 以及每个所述对象描述词的热
度;
根据每个所述对象描述词的热度在各个所述对象描述词中确定出 备选掩码分词。
7.根据权利要求1所述的方法, 其特征在于, 所述获取所述数据处理指令对应的对象描
述文本, 包括:
对数据处 理指令进行解析, 获得 所述数据处 理指令的指令信息;
从所述指令信息中获得文本查询条件;
在预设的文本存 储区域中获得与所述文本查询条件相匹配的描述文本;
将与所述文本查询条件相匹配的描述文本, 确定为所述数据处理指令对应的对象描述
文本。
8.一种数据处 理装置, 其特 征在于, 包括:
获取单元, 用于响应数据处 理指令, 获取 所述数据处 理指令对应的对象描述文本;
第一执行单元, 用于将所述对象描述文本输入到预先训练好的表示模型中, 获得所述
表示模型输出的表示向量;
第二执行单元, 用于应用预先训练好的实体识别模型对所述表示向量进行识别, 获得
所述对象描述文本对应的实体识别 信息;
第三执行单元, 用于将所述实体识别信 息分别输入到预先训练好的关系处理模型和对
象分类模型中, 获得所述关系处理模型输出的关系标注序列和所述对象分类模型输出的对
象分类结果; 所述关系标注序列中包括实体以及所述实体的属性关系标注;
构建单元, 用于根据所述关系标注序列以及所述对象分类结果, 构建所述对象描述文
本所属的目标对象的知识图谱。
9.一种存储介质, 其特征在于, 所述存储介质包括存储指令, 其中, 在所述指令运行时
控制所述存 储介质所在的设备 执行如权利要求1~7任意 一项所述的数据处 理方法。
10.一种电子设备, 其特征在于, 包括存储器, 以及一个或者一个以上的指令, 其中一个权 利 要 求 书 2/3 页
3
CN 114936290 A
3
专利 数据处理方法及装置、存储介质及电子设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:57上传分享