(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221081979 2.X
(22)申请日 2022.07.13
(71)申请人 阿里云计算有限公司
地址 310024 浙江省杭州市西湖区转塘科
技经济区块12号
(72)发明人 王明 王天振 陈建欣 李印
庞艳蓓 付大超 李飞飞
(74)专利代理 机构 北京智信禾专利代理有限公
司 11637
专利代理师 李晓庆
(51)Int.Cl.
G06F 16/22(2019.01)
G06F 16/23(2019.01)
G06F 16/28(2019.01)
(54)发明名称
数据处理方法以及装置
(57)摘要
本说明书实施例提供数据处理方法以及装
置, 其中所述数据处理方法包括: 获取至少两个
业务数据表, 并基于所述至少两个业务数据表中
包含的字段构建初始知识图谱, 其中, 所述至少
两个业务数据表分别对应目标业务的不同业务
类型, 根据与所述至少两个业务数据表相关的历
史操作数据, 确定所述至少两个业务数据表中不
同字段间的关联关系, 根据所述 关联关系对所述
初始知识图谱进行更新, 生成目标知识图谱, 基
于所述目标知识 图谱构建所述目标业务的业务
宽表。
权利要求书3页 说明书17页 附图5页
CN 115374105 A
2022.11.22
CN 115374105 A
1.一种数据处 理方法, 包括:
获取至少两个业务数据表, 并基于所述至少两个业务数据表中包含的字段构建初始知
识图谱, 其中, 所述至少两个业 务数据表分别对应目标业 务的不同业 务类型;
根据与所述至少两个业务数据表相关的历史操作 数据, 确定所述至少两个业务数据表
中不同字段间的关联关系;
根据所述关联关系对所述初始知识图谱进行 更新, 生成目标知识图谱;
基于所述目标知识图谱构建所述目标业 务的业务宽表。
2.根据权利要求1所述的数据处理方法, 所述基于所述至少两个业务数据表中包含的
字段构建初始知识图谱, 包括:
将目标业务数据表的表标识作为第 一节点, 将所述目标业务数据表中不同字段对应的
字段标识作为第二节点, 并将所述 目标业务数据表与所述不同字段间的包含关系, 作为所
述第一节点与所述第二节点间的边, 构建所述 目标业务数据表对应的初始子知识图谱, 其
中, 所述目标业务数据表为所述至少 两个业务数据表之一, 所述至少 两个业务数据表分别
对应的初始子知识图谱 共同组成初始知识图谱。
3.根据权利要求2所述的数据处理方法, 所述根据所述关联关系对所述初始知识图谱
进行更新, 生成目标知识图谱, 包括:
在确定第一业务数据表中的第一字段和第二业务数据表中的第二字段存在关联关系
的情况下, 基于所述关联关系在所述初始知识图谱中、 所述第一字段对应的第二节点及所
述第二字段对应的第二节点间构建边, 并在所述第一业务数据表的第一节点及所述第二业
务数据表的第一节点间构建边, 以对所述初始知识图谱进行 更新, 生成目标知识图谱。
4.根据权利要求2所述的数据处理方法, 所述根据与所述至少两个业务数据表相关的
历史操作数据, 确定所述至少两个业 务数据表中不同字段间的关联关系, 包括:
根据与所述至少两个业务数据表相关的历史操作 数据, 确定所述至少两个业务数据表
间的第一关联关系, 以及所述至少两个业 务数据表中不同字段间的第二关联关系。
5.根据权利要求4所述的数据处理方法, 所述根据所述关联关系对所述初始知识图谱
进行更新, 生成目标知识图谱, 包括:
在确定第一业务数据表与第 二业务数据表存在第 一关联关系的情况下, 基于所述第 一
关联关系在所述初始知识图谱中、 所述第一业务数据 表的第一节点及所述第二业务数据 表
的第一节点间构建边;
在确定所述第一业务数据表中的第一字段和所述第二业务数据表中的第二字段存在
第二关联关系的情况下, 基于所述第二关联关系在所述初始知识图谱中、 所述第一字段对
应的第二节点及所述第二字段对应的第二节点间构建边, 以对所述初始知识图谱进行更
新, 生成目标知识图谱。
6.根据权利要求1至 5任意一项所述的数据处 理方法, 所述 业务宽表包括数据仓库表;
相应地, 所述基于所述目标知识图谱构建所述目标业 务的业务宽表, 包括:
将目标知识图谱中各节点对应的字段 标识作为字段构建初始数据仓库表;
根据所述目标知识图谱中各节点间的关联关系, 对所述初始数据仓库表中的字段位置
进行调整, 生成中间数据仓库表;
将所述至少两个业务数据表中的业务数据, 添加至所述中间数据仓库表中对应字段的权 利 要 求 书 1/3 页
2
CN 115374105 A
2数据单元, 生成目标 数据仓库表。
7.根据权利要求1所述的数据处理方法, 所述基于所述目标知识图谱构建所述目标业
务的业务宽表, 包括:
基于所述目标知识图谱构建增强实体关系图, 并根据所述增强实体关系图中不同实体
间的关联关系, 构建所述目标业 务的业务宽表。
8.根据权利要求7所述的数据处理方法, 所述基于所述目标知识图谱构建增强实体关
系图, 包括:
确定所述至少两个业 务数据表中存在关联关系的第一字段及第二字段;
对所述第一字段及所述第二字段包 含的业务数据进行去重处 理;
根据去重处理结果确定所述第 一字段及所述第 二字段包含的业务数据的数据量, 并根
据所述数据量, 将所述至少两个业 务数据表划分为主表和从表;
根据所述目标知识图谱中各节点间的关联关系, 确定所述主表与所述从表间的关联关
系;
基于所述主表与所述从表间的关联关系, 构建增强 实体关系图。
9.根据权利要求8所述的数据处理方法, 所述根据 所述数据量, 将所述至少两个业务数
据表划分为主表和从表, 包括:
将所述第一字段和所述第 二字段中, 包含的数据量大于预设数据量阈值的目标字段所
属的业务数据 表划分为主表, 将所述至少两个业务数据表中所述主表外的业务数据表划分
为从表;
相应的, 所述根据所述目标知识图谱中各节点间的关联关系, 确定所述主表与所述从
表间的关联关系, 包括:
根据所述目标知识图谱中各节点间的关联关系, 确定所述主表与各从表间的关联关
系。
10.根据权利要求6所述的数据处理方法, 所述将所述至少两个业务数据表中的业务数
据, 添加至所述中间数据仓库表中对应字段的数据单 元, 生成目标 数据仓库表, 包括:
确定所述至少两个业务数据表中的目标业务数据表与所述中间数据仓库表中各字段
的映射关系, 其中, 所述目标业 务数据表为所述至少两个业 务数据表之一;
基于所述中间数据仓库表的表结构, 将所述目标业务数据表中的业务数据按照所述映
射关系, 添加至所述中间数据仓库表中对应字段的数据单 元, 生成所述目标 数据仓库表。
11.根据权利要求1所述的数据处 理方法, 还 包括:
将所述至少两个业务数据表中包含的字段信息, 输入文本处理模型进行相似度计算,
并根据相似度计算结果确定所述至少两个业 务数据表中不同字段间的关联关系。
12.一种数据处 理装置, 包括:
获取模块, 被配置为获取至少两个业务数据表, 并基于所述至少两个业务数据表中包
含的字段构建初始知识图谱, 其中, 所述至少 两个业务数据表分别对应目标业务的不同业
务类型;
确定模块, 被配置为根据与所述至少两个业务数据表相关的历史操作数据, 确定所述
至少两个业 务数据表中不同字段间的关联关系;
生成模块, 被配置为根据所述关联关系对所述初始知识图谱进行更新, 生成目标知识权 利 要 求 书 2/3 页
3
CN 115374105 A
3
专利 数据处理方法以及装置
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:35:35上传分享