(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210930230.2
(22)申请日 2022.08.03
(71)申请人 上海携旅信息技 术有限公司
地址 201803 上海市嘉定区金园一路13 31
号401室-4
(72)发明人 汤才芳 刘嘉伟 鞠剑勋 李健
(74)专利代理 机构 上海弼兴律师事务所 31283
专利代理师 林嵩 罗朗
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/31(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 50/14(2012.01)
(54)发明名称
用于知识图谱补全的处理方法、 系统、 设备
及介质
(57)摘要
本发明公开了一种用于知识图谱补全的处
理方法、 系统、 设备及介质, 该处理方法应用于旅
游知识图谱, 所述旅游知识图谱包括三元组, 所
述三元组包括头实体、 尾实体和关系实体, 所述
处理方法包括: 获取旅游数据, 预处理所述旅游
数据得到第一数据和第二数据, 所述第一数据包
括含有两种以上实体的三元 组, 剩余数据形成第
二数据; 根据所述第一数据构建旅游知识图谱;
将所述第一数据中缺失实体的三元组和第二数
据输入加权图卷积神经网络模型中, 计算得到从
第二数据中的待选实体与所述缺失实体的三元
组的链接 可能性评分; 将评分最高的待选实体作
为目标实体补入对应的所述缺失实体的三元组。
能获取高质量的实体和关系链接可能性, 明显提
升知识图谱补全效果。
权利要求书3页 说明书8页 附图3页
CN 115186108 A
2022.10.14
CN 115186108 A
1.一种用于知识图谱补全的处理方法, 其特征在于, 应用于旅游知识图谱, 所述旅游知
识图谱包括三元组, 所述 三元组包括头实体、 尾实体和关系实体, 所述处 理方法包括:
获取旅游数据, 预处理所述旅游数据得到第一数据和第二数据, 所述第一数据包括含
有两种以上实体的三元组, 剩余数据形成第二数据;
根据所述第一数据构建旅游知识图谱;
将所述第一数据中缺失实体的三元组和第 二数据输入加权图卷积神经网络模型中, 计
算得到从第二数据中的待选实体与所述 缺失实体的三元组的链接可能性评分;
将评分最高的待选实体作为目标实体补入 对应的所述 缺失实体的三元组。
2.根据权利要求1所述的用于知识图谱补全的处理方法, 其特征在于, 所述加权图卷积
神经网络模型的训练步骤 包括:
获取训练数据, 所述训练数据包括旅游关联的知识图谱;
将所述训练数据输入W ‑GCN模型, 得到图结构表示模型, 所述图结构表示模型以知识图
谱为输入, 以节点嵌入作为输出;
将所述节点嵌入输入RotatE模型, 训练得到嵌入模型, 所述三元组表示模型以节点嵌
入为输入, 输出为实体间的链接可能性评分。
3.根据权利 要求2所述的用于知识图谱补全的处理方法, 其特征在于, 所述RotatE模型
采用自我对抗负采样方法进行训练, 训练步骤 包括:
定义评分函数 得到评分为正的正三元组与评分为负的负三元组, 函数公式为:
其中{h, r, t}=eiθ=cosθ+isinθ, h为头实体、 t为尾实体、 r为关系实体、
是哈达玛内
积, 将虚数单位i视作在复数 空间中的旋转, 该恒等式中e代表连续, i代表旋转, ei就代表连
续旋转;
对所述负三元组进行采样, 负采样概 率计算公式为:
其中, α 是采样概 率, (h′j, r, t′j)表示(hi, ri, ti)对应的负 样本, hi表示第i个头实体;
根据所述正三元组与 所述三元组的评分计算模型损失, 并将付采样概率加入损失函数
中, 得到采样损失函数的计算公式:
其中σ 为sigmoid函数, γ为margin距离超参数, 使用A dam算法对所述采样损失函数公
式极小化, 迭代训练得到最终模型。
4.根据权利 要求3所述的用于知识图谱补全的处理方法, 其特征在于, 所述RotatE模型
的参数选择为: embed ding的维度设置为128维, batc h_size大小为1024。
5.一种用于知识图谱补全的处理系统, 其特征在于, 应用于旅游知识图谱, 所述旅游知
识图谱包括三元组, 所述 三元组包括头实体、 尾实体和关系实体, 所述处 理系统包括:
获取模块, 用于获取旅游数据, 预处理所述旅游数据 得到第一数据和第 二数据, 所述第权 利 要 求 书 1/3 页
2
CN 115186108 A
2一数据包括含有两种以上实体的三元组, 剩余数据形成第二数据;
知识图谱 模块, 用于根据所述第一数据构建旅游知识图谱;
加权图卷积神经网络模块, 用于将所述第 一数据中缺失实体的三元组和第 二数据输入
加权图卷积神经网络模型中, 计算得到从第二数据中的待选实体与所述缺失实体的三元组
的链接可能性评分;
嵌入模块, 用于将评分最高的待选实体作为目标实体补入对应的所述缺失实体的三元
组。
6.根据权利要求5所述的用于知识图谱补全的处理系统, 其特征在于, 所述加权图卷积
神经网络模块中所述加权图卷积神经网络模型的训练步骤 包括:
获取训练数据, 所述训练数据包括旅游关联的知识图谱;
将所述训练数据输入W ‑GCN模型, 得到图结构表示模型, 所述图结构表示模型以知识图
谱为输入, 以节点嵌入作为输出;
将所述节点嵌入输入RotatE模型, 训练得到嵌入模型, 所述三元组表示模型以节点嵌
入为输入, 输出为实体间的链接可能性评分。
7.根据权利 要求6所述的用于知识图谱补全的处理系统, 其特征在于, 所述RotatE模型
采用自我对抗负采样方法进行训练, 训练步骤 包括:
定义评分函数 得到评分为正的正三元组与评分为负的负三元组, 函数公式为:
其中{h, r, t}=eiθ=cosθ+isinθ, h为头实体、 t为尾实体、 r为关系实体、
是哈达玛内
积, 将虚数单位i视作在复数空间中的旋转, 该恒 等式中e代表连续, i代表旋转, ei就代表连
续旋转;
对所述负三元组进行采样, 负采样概 率计算公式为:
其中, α 是采样概 率, (h′j, r, t′j)表示(hi, ri, ti)对应的负 样本, hi表示第i个头实体;
根据所述正三元组与 所述三元组的评分计算模型损失, 并将付采样概率加入损失函数
中, 得到采样损失函数的计算公式:
其中σ 为sigmoid函数, γ为margin距离超参数, 使用A dam算法对所述采样损失函数公
式极小化, 迭代训练得到最终模型。
8.根据权利 要求7所述的用于知识图谱补全的处理方法, 其特征在于, 所述RotatE模型
的参数选择为: embed ding的维度设置为128维, batc h_size大小为1024。
9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算
机程序, 其特征在于, 所述处理器执行计算机程序时实现如权利要求 1‑4中任一项 所述的用
于知识图谱补全的处 理方法。
10.一种计算机存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处权 利 要 求 书 2/3 页
3
CN 115186108 A
3
专利 用于知识图谱补全的处理方法、系统、设备及介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:44:06上传分享