(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210439962.1
(22)申请日 2022.04.25
(71)申请人 西北工业大 学
地址 710072 陕西省西安市友谊西路127号
(72)发明人 王柱 刘囡囡 刘慧 康天雨
郭斌 於志文
(74)专利代理 机构 西安凯多 思知识产权代理事
务所(普通 合伙) 61290
专利代理师 赵革革
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/28(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06F 40/289(2020.01)
G06F 40/295(2020.01)
G06F 17/16(2006.01)
G06F 17/18(2006.01)
(54)发明名称
融合多源数据的知识图谱邻域结构稀疏的
实体对齐方法
(57)摘要
本发明公开了一种融合多源数据的知识图
谱邻域结构 稀疏的实体对齐方法, 根据用户在多
个社交媒体平台上的交互以及交互主题内容构
建知识图谱, 将原始数据中的关键部分转换为知
识图谱中所需的三元组信息; 然后构建实体在结
构特征上的相似度矩阵; 接下来构建实体在语义
特征上的相似度矩阵; 再构建实体在字符串特征
上的相似度矩阵; 最终根据邻域结构感知的注意
力网络动态融合三个维度的特征, 融合后的实体
相似度矩阵即为实体对齐结果。 本发 明使得目前
实体对齐方法只关注 图结构信息对于具有邻域
结构稀疏的实体对齐效果不好的问题得到改善,
使得实体对齐结果更加精准。
权利要求书4页 说明书9页 附图2页
CN 114942998 A
2022.08.26
CN 114942998 A
1.一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法, 其特征在于, 包括如
下步骤:
步骤1: 根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱, 将交
互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息, 分为两个部分: 一
是在正文数据中话题由 “#”号开头, 使用正则表达式提取主题实体, 构架<用户, 评论, 主题>
的三元组; 二是在评论数据中根据 依存句法分析的方法抽取出<主题, 动词, 主题>类型的三
元组; 按照三元 组<h,r,t>的方式构成知识图谱, 其中, h表示头实体, r表 示关系, t表 示尾实
体;
步骤2: 依据步骤1构建的知识图谱, 构建实体在结构特 征上的相似度矩阵;
步骤2‑1: 构造原 始图;
将步骤1构建的知识图谱表示为G=(E,R,T), 分别代表实体集合、 关系集合、 三元组集
合, 令G1=(E1,R1,T1)和G2=(E2,R2,T2)分别表示两个将要对齐的异构知识图谱; 将图谱G1和
G2合并为原始图ge=(ve, εe), ve=E1∪E2表示原始图ge中所有顶点的集合为两个知识图谱中
实体的集 合, εe为
的集合,
表示知识图谱中实体ei与ej之间的关系;
步骤2‑2: 根据原 始图构造对偶关系图;
原始图ge的对偶关系图为gr=(vr, εr), vr=R1∪R2表示对偶关系图gr中顶点的集合为两
个知识图谱中所有关系的集合, εr为
的集合,
表示如果两个关系ri和rj共享相同的头
实体或尾实体, 则
连接
分别表示对偶关系图中的节点;
步骤2‑3: 根据原 始图与对偶关系图的注意力交 互获得融合了边特 征的实体表示;
定义
表示对偶注意力层生成的顶点表示矩阵, 其中每行对应对偶关系图gr中的一个
顶点; 定义Xe表示原始注意力层生成的顶点表示矩阵, 其中每行对应原始图ge中的一个顶
点;
步骤2‑3‑1: 对偶注意力层;
步骤2‑3‑1‑1: 按照
计算顶点
的初始表示ci, 其中Hi表示使用
关系
连接三元 组的头实体集合; Ti表示使用关系
连接三元组的尾实体;
表示由原始
注意力层输出, 代表关系
连接的第k个头实体表 示;
表示由原始注 意力层输出, 代表关
系
连接的第l个 尾实体表示;
步骤2‑3‑1‑2: 按照
计算顶点
与其邻居
之间的相关
系数
其中
表示顶点
在对偶关系图中的邻居集合;
表示共享参数, 是对顶点的
特征进行增维; [ ·||·]表示对变换后的顶点特征进行拼接; ar表示全连接层将输入的二
维向量映射到一个实数 上得到相关系数;
步骤2‑3‑1‑3: 按照
将相关系数
归一化得到
LeakyReLU(.)表示 LeakyReLU激活函数;权 利 要 求 书 1/4 页
2
CN 114942998 A
2步骤2‑3‑1‑4: 按照
加权求和得到对偶关系图的顶点表示
其
中
是对偶注意力层的输出, 代表对偶关系图中第i个节点的表示; σr表示激活函数; Ej表示
对偶关系图gr顶点
的对偶表示, 第一层的对偶注意力层不存在Ej, 所以使用原始图的初
始化顶点表示Xe_init, 通过步骤2 ‑3‑1‑1计算顶点
的初始表示cj来代表Ej;
步骤2‑3‑2: 原始注意力层;
步骤2‑3‑2‑1: 将对偶注意力层的输出作为原始图中边的初始特征, 记为
按照
对边特征进行归一化, 其中,
表示原始图中第i个节
点和第j个节点之间的边特 征向量, Eij表示原始图中归一 化后的边特 征向量;
步骤2‑3‑2‑2: 按照
计算原始图中顶点
与其邻居节点
的相似系数
其中L表示LeakyReLU激活函数; ae表示全连接层将输入的
二维向量映射到实数; We表示权重矩阵;
步骤2‑3‑2‑3: 按照
与
对步骤2‑3‑2‑2得到的
进行
归一化表示得到αe;
步骤2‑3‑2‑4: 按照
将节点特征从输入空间映射到输出空间 的变
换;
步骤2‑3‑2‑5: 根据步骤2 ‑3‑2‑3得到αe, 步骤2‑3‑2‑4得到g(·), 按照
获得原始图顶点表示; 其中σe表示非线性的激活函数; αe表示原
始图注意层的注意力系数;
步骤2‑3‑3: 将步骤2 ‑3迭代N1轮得到了原始图融合 边特征的实体表示
步骤2‑4: 使用带有highway gate的双层GCN对原 始图的实体结构特 征进行量 化;
步骤2‑4‑1: 将步骤2 ‑3得到的
作为GCN的初始输入;
步骤2‑4‑2: 在GCN的第q层输入为实体表示X(q), 输出为X(q+1); 按照
计算X(q+1), 其中,
A表示原始图ge的邻接矩阵, I表示单位
矩阵, 如果直接使用邻接矩阵A, 其对角线 元素为0, 乘以特征矩阵会导致最 终结果忽略掉 实
体本身的特征;
表示对邻接矩阵进行归一化, 避免在乘以特征矩阵之后改变自身
的分布导 致不可预测的问题; W(q)表示第q层的可训练权 重矩阵; ξ表示激活函数ReLU;
步骤2‑4‑3: 按照
X(q+1)=T(X(q))·X(q+1)+(1‑T(X(q)))·(X(q))
防止噪声在传播过程中累积; 其中σ 表示sigmoid激活函数; ·表示张量之间对应元素逐个
相乘;
步骤2‑4‑4: 将步骤2 ‑4‑1到步骤2 ‑4‑3迭代N2轮得到最终的实体结构特征表示X; 按照权 利 要 求 书 2/4 页
3
CN 114942998 A
3
专利 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:01:12上传分享