(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210748639.2
(22)申请日 2022.06.28
(71)申请人 北京龙智数 科科技服务有限公司
地址 100020 北京市朝阳区北 苑小街8号6
号楼五层5 305
(72)发明人 殷建杰
(74)专利代理 机构 北京嘉科知识产权代理事务
所(特殊普通 合伙) 11687
专利代理师 杨波
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/28(2019.01)
(54)发明名称
知识图谱的自动化构建方法及装置
(57)摘要
本公开涉及数据处理技术领域, 提供了知识
图谱的自动化构建方法及装置。 该方法包括: 获
取产品知识图谱的自动化构建任务; 执行第一任
务脚本, 从关系型数据库中调取业务结构化数
据; 执行第二任务脚本, 根据业务结构化数据, 构
建产品知识图谱的本体层和实例层; 执行第三任
务脚本, 基于预设的映射策略, 构建本体层与实
例层之间的映射关系, 将业务结构化数据序列化
成三元组序列; 执行第四任务脚本, 将三元组序
列同步到GDB图数据库中, 并生成GDB图数据库的
点和边, 完成产品知识图谱的构建。 本公开可将
产品、 产品线、 产品项目以及员工等实体自动关
联形成产品知识图谱, 有效地实现了查询分析和
推理的底层数据构建, 快速响应用户问答的需
求。
权利要求书3页 说明书10页 附图2页
CN 114936294 A
2022.08.23
CN 114936294 A
1.一种知识图谱的自动化构建方法, 其特 征在于, 包括:
获取产品知识图谱的自动 化构建任务, 所述自动化构建任务至少包括依次串联的第 一
任务节点、 第二任务节点、 第三任务节点和第四任务节点;
执行与所述第一任务节点对应的第 一任务脚本, 从关系型数据库中调取业务结构化数
据, 所述业务结构化数据至少包括产品结构化数据、 产品线 结构化数据、 产品项目结构化数
据和员工结构化数据;
在所述第一任务脚本执行完毕后, 执行与所述第二任务节点对应的第二任务脚本, 根
据所述业务结构化数据, 构建所述产品知识图谱的本体层和实例层;
在所述第二任务脚本执行完毕后, 执行与所述第三任务节点对应的第三任务脚本, 基
于预设的映射策略, 构建所述本体层与所述实例层之间的映射关系, 以将所述业务结构化
数据序列化成三元组序列;
在所述第三任务脚本执行完毕后, 执行与所述第 四任务节点对应的第 四任务脚本, 将
所述三元组序列同步到GDB图数据库中, 并生成所述GDB图数据库的点和边, 完成所述产品
知识图谱的构建。
2.根据权利要求1所述的方法, 其特征在于, 所述本体层包括实体层面、 实体属性层面
和实体关系层面;
基于预设的映射策略, 构建所述本体层与所述实例层之间的映射关系, 以将所述业务
结构化数据 序列化成三元组序列, 包括:
根据所述本体层的实体层面、 实体属性层面和实体关系层面修改初始映射文件, 得到
修改后的映射文件;
根据所述修改后的映射文件, 建立起所述本体层与所述实例层之间的映射关系, 以将
所述业务结构化数据 序列化成三元组序列。
3.根据权利要求2所述的方法, 其特征在于, 所述实例层包括所述业务结构化数据的数
据表、 数据表的每行 数据和数据表的每列数据;
根据所述修改后的映射文件, 建立起所述本体层与所述实例层之间的映射关系, 以将
所述业务结构化数据 序列化成三元组序列, 包括:
建立起所述本体层的实体层面与所述数据表之间的第一映射关系;
建立起所述本体层的实体属性层面与所述数据表的每行 数据之间的第二映射关系;
建立起所述本体层的实体关系层面与所述数据表的每列数据之间的第三映射关系;
根据所述第一映射关系、 第二映射关系和第三映射关系, 将所述业务结构化数据序列
化成三元组序列。
4.根据权利要求1所述的方法, 其特征在于, 将所述三元组序列同步到GDB图数据库中,
并生成所述GDB图数据库的点和边, 包括:
对所述三元组序列进行解析和分类, 得到三元组序列A和三元组序列B, 所述三元组序
列A包括实体、 实体属性和 属性值, 所述三元组序列B包括实体、 关系和实体;
将所述三元组序列A和三元组序列B同步到GDB图数据库中, 并基于所述三元组序列A生
成所述GDB图数据库的点, 基于所述 三元组序列B生成所述GDB图数据库的边。
5.根据权利要求1所述的方法, 其特征在于, 所述本体层包括实体层面、 实体属性层面
和实体关系层面;权 利 要 求 书 1/3 页
2
CN 114936294 A
2根据所述 业务结构化数据, 构建所述产品知识图谱的本体层, 包括:
对所述业务结构化数据的数据表结构、 数据字段的含义和关联关系进行分析, 以抽取
得到用于描述所述业务结构化数据的信息集合, 所述信息集合包括实体、 实体属 性和实体
关系;
根据所述信息集 合中的实体, 构建所述产品知识图谱的实体层面;
根据所述信息集 合中的实体属性, 构建所述产品知识图谱的实体属性层面;
根据所述信息集 合中的实体关系, 构建所述产品知识图谱的实体关系层面。
6.根据权利要求1所述的方法, 其特征在于, 从关系型数据库中调取业务结构化数据,
包括:
从关系型 数据库中调取多源业 务数据;
对所述多源业 务数据进行 数据清洗、 归一 化和标准 化处理, 得到业 务结构化数据。
7.根据权利要求6所述的方法, 其特征在于, 所述第一任务节点包括第一子节点、 第二
子节点和第三子节点;
对所述多源业务数据进行数据清洗、 归一化和标准化处理, 得到业务结构化数据, 包
括:
执行与所述第一子节点对应的第一脚本, 对所述多源业务数据进行数据清洗, 得到第
一处理数据;
在执行完所述第一脚本后, 执行与所述第二子节点对应的第二脚本, 对所述第一处理
数据进行归一 化处理, 得到第二处 理数据;
在执行完所述第二脚本后, 执行与所述第三子节点对应的第三脚本, 对所述第二处理
数据进行 标准化处理, 得到业 务结构化数据;
或者,
并行执行所述第一脚本、 第二脚本和第三脚本, 对所述多源业务数据进行同步数据清
洗、 归一化和标准 化处理, 得到业 务结构化数据。
8.一种知识图谱的自动化构建装置, 其特 征在于, 包括:
获取模块, 被配置为获取产品知识图谱的自动化构建任务, 所述自动化构建任务至少
包括依次串联的第一任务节点、 第二任务节点、 第三任务节点和第四任务节点;
第一执行模块, 被配置为执行与所述第一任务节点对应的第一任务脚本, 从关系型数
据库中调取业务结构化数据, 所述业务结构化数据至少包括产品结构化数据、 产品线结构
化数据、 产品项目结构化数据和员工结构化数据;
第二执行模块, 被配置为在所述第一任务脚本执行完毕后, 执行与所述第二任务节点
对应的第二任务脚本, 根据所述业务结构化数据, 构建所述产品知识图谱的本体层和实例
层;
第三执行模块, 被配置为在所述第二任务脚本执行完毕后, 执行与所述第三任务节点
对应的第三任务脚本, 基于预设的映射策略, 构建所述本体层与所述实例层之间的映射关
系, 以将所述 业务结构化数据 序列化成三元组序列;
第四执行模块, 被配置为在所述第三任务脚本执行完毕后, 执行与所述第 四任务节点
对应的第四任务脚本, 将所述三元组序列同步到GDB图数据库中, 并生成所述GDB图数据库
的点和边, 完成所述产品知识图谱的构建。权 利 要 求 书 2/3 页
3
CN 114936294 A
3
专利 知识图谱的自动化构建方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:00:48上传分享