(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210786427.3
(22)申请日 2022.07.04
(71)申请人 北京明略昭辉科技有限公司
地址 100098 北京市海淀区北三环西路25
号27号楼二层2020室
(72)发明人 李犇 张杰 于皓
(74)专利代理 机构 北京华夏泰和知识产权代理
有限公司 1 1662
专利代理师 曾军
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/242(2020.01)
G06N 20/00(2019.01)
(54)发明名称
知识图谱构建方法、 装置、 系统、 电子设备及
存储介质
(57)摘要
本发明提供了一种知识图谱构建方法、 装
置、 系统、 电子设备及存储介质, 应用于知识图谱
构建系统, 该系统至少包括辅助标注模块、 模型
训练模块及知识图谱构建模块, 该方法包括: 获
取目标领域的目标文本; 将目标文本划分为待 标
注文本和待处理文本; 通过辅助标注模块对待 标
注文本进行实体标注, 得到已标注文本; 通过模
型训练模块学习 已标注文本, 生成实体标注模
型; 根据实体标注模型对待处理文本进行实体及
实体关系的标注, 得到已处理文本; 将已处理文
本和已标注文本输入知 识图谱构建模块, 以输出
通过知识 图谱构建模块构建得到的目标文本在
目标领域的知识图谱。 通过本发明, 降低了纯人
工标注的工作量, 进一步地提高了领域知识图谱
构建的效率。
权利要求书3页 说明书9页 附图5页
CN 115203432 A
2022.10.18
CN 115203432 A
1.一种知识图谱构建方法, 其特征在于, 应用于知识图谱构建系统, 所述知识图谱构建
系统至少包括辅助标注模块、 模型训练模块及知识图谱构建模块, 所述知识图谱构建方法
包括:
获取目标领域的目标文本; 其中, 所述目标文本为待在所述目标领域构建知识图谱的
文本;
将所述目标文本划分为待标注文本和待处 理文本;
通过所述辅助标注模块对所述待标注文本进行实体标注, 得到已标注文本;
通过所述模型训练模块学习所述已标注文本, 生成实体标注模型;
根据所述实体标注模型对所述待处理文本进行实体及实体关系的标注, 得到已处理文
本;
将所述已处理文本和所述已标注文本输入所述知识图谱构建模块, 以输出通过所述知
识图谱构建模块构建得到的所述目标文本在所述目标 领域的知识图谱。
2.根据权利要求1所述的方法, 其特征在于, 所述通过所述辅助标注模块对所述待标注
文本进行实体标注, 得到已标注文本, 包括:
抽取所述待标注文本中的各个实体;
将各个实体与预设实体及所述预设实体间的实体关系进行匹配;
若匹配到的相似度达到预设值, 则依据预设实体以及所述预设实体间的实体关系, 由
所述辅助标注模块标注各个实体及各个实体间的实体关系, 得到所述已标注文本 。
3.根据权利要求1所述的方法, 其特征在于, 所述通过所述模型训练模块学习所述已标
注文本, 生成实体标注模型, 包括:
确定初始模型, 并设置所述初始模型对应的超参数; 其中, 所述初始模型为基于片段标
注或基于序列标注的神经网络, 所述超参数至少包括训练数据集和验证集的比例、 训练所
述初始模型的迭代次数及学习率;
由所述模型训练模块根据所述已标注文本和设置后的超参数对所述初始模型进行训
练, 生成所述实体标注模型, 以使所述实体标注模型对进行实体及实体关系的抽取。
4.根据权利要求1或3所述的方法, 其特征在于, 所述知识图谱构建系统还包括模型服
务部署模块, 其中, 在通过所述模型训练模块学习所述已标注文本, 生成实体标注模型之
后, 所述方法还 包括:
调用所述实体标注模型对所述已标注文本中的测试数据集进行预测, 得到准确率值,
并将所述 准确率值作为所述实体标注模型的评估指标;
根据所述评估指标对所述实体标注模型进行效果评估;
当评估结果表明所述评估指标满足预设条件时, 通过所述模型服务部署模块为所述实
体标注模型进 行自动化部署, 以使所述 实体标注模型具备模型服务的自动部署服务以及具
备实体及实体关系的标注服 务。
5.根据权利要求1所述的方法, 其特征在于, 所述将所述已处理文本和所述已标注文本
输入所述知识图谱构建模块, 以输出通过所述知识图谱构建模块构建得到的所述目标文本
在所述目标 领域的知识图谱, 包括:
将所述已处 理文本和所述已标注文本 输入至所述知识图谱构建模块;
对所述已处理文本和所述已标注文本进行知识融合, 得到 融合后的多个目标实体以及权 利 要 求 书 1/3 页
2
CN 115203432 A
2各个目标实体间的实体关系;
以每个目标实体作为节点, 利用有向边表示各个目标实体间的实体关系, 构建所述目
标文本在所述目标 领域的知识图谱;
输出所述目标文本在所述目标 领域的知识图谱。
6.根据权利要求1所述的方法, 其特征在于, 在将所述目标文本划分为待标注文本和待
处理文本之前, 所述方法还 包括:
对所述目标文本进行预处理操作, 得到预处理后的目标文本; 其中, 所述预处理操作至
少包括以下之一: 对所述 目标文本中含有文本长度小于第一预设值的文本进行清除, 对所
述目标文本中特殊字符进 行清除, 对所述目标文本中含有文本长度大于第二预设值的文本
进行文本切分。
7.一种知识图谱构建装置, 其特征在于, 应用于知识图谱构建系统, 所述知识图谱构建
系统至少包括辅助标注模块、 模型训练模块及知识图谱构建模块, 所述知识图谱构建装置
包括:
获取模块, 用于获取目标领域的目标文本; 其中, 所述目标文本为待在所述目标领域构
建知识图谱的文本;
划分模块, 用于将所述目标文本划分为待标注文本和待处 理文本;
第一标注模块, 用于通过所述辅助标注模块对所述待标注文本进行实体标注, 得到已
标注文本;
生成模块, 用于通过 所述模型训练模块学习所述已标注文本, 生成实体标注模型;
第二标注模块, 用于根据所述实体标注模型对所述待处理文本进行实体及实体关系的
标注, 得到已处 理文本;
构建模块, 用于将所述已处理文本和所述已标注文本输入所述知识图谱构建模块, 以
输出通过 所述知识图谱构建模块构建得到的所述目标文本在所述目标 领域的知识图谱。
8.一种知识图谱构建系统, 其特征在于, 所述知识图谱构建系统至少包括辅助标注模
块、 模型训练模块、 模型服 务部署模块及 知识图谱构建模块, 其中,
所述辅助 标注模块, 与所述模型训练模块连接, 用于在获取目标领域的目标文本, 并将
所述目标文本划分为待标注文本和待处理文本之后, 对所述待标注文本进行实体标注, 得
到已标注文本, 并将所述已标注文本提供至所述模型训练模块连接;
所述模型训练模块, 与所述模型服务部署模块连接, 用于学习所述已标注文本, 以生成
实体标注模型, 并将所述实体标注模型提供至所述模型服 务部署模块;
所述模型服务部署模块, 用于对所述实体标注模型进行效果评估, 并在当评估结果表
明所述实体标注模型的评估指标满足预设条件之后, 为所述实体标注模型进行自动化部
署, 以使所述实体标注模型具备模型服务的自动部署服务以及具备实体及实体关系的标注
服务;
所述知识图谱构建模块, 用于在所述实体标注模型对所述待处理文本进行实体及实体
关系的标注, 得到已处理文本之后, 根据所述已处理文本和所述已标注文本构建所述 目标
文本在所述目标 领域的知识图谱。
9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计
算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至6中任一项所权 利 要 求 书 2/3 页
3
CN 115203432 A
3
专利 知识图谱构建方法、装置、系统、电子设备及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:00:40上传分享