专利 用于知识图谱补全的处理方法、系统、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210930230.2 (22)申请日 2022.08.03 (71)申请人上海携旅信息技术有限公司地址 201803 上海市嘉定区金园一路13 31 号401室-4 (72)发明人汤才芳　刘嘉伟　鞠剑勋　李健　 (74)专利代理机构上海弼兴律师事务所 31283 专利代理师林嵩　罗朗 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/14(2012.01) (54)发明名称用于知识图谱补全的处理方法、系统、设备及介质 (57)摘要本发明公开了一种用于知识图谱补全的处理方法、系统、设备及介质，该处理方法应用于旅游知识图谱，所述旅游知识图谱包括三元组，所述三元组包括头实体、尾实体和关系实体，所述处理方法包括：获取旅游数据，预处理所述旅游数据得到第一数据和第二数据，所述第一数据包括含有两种以上实体的三元组，剩余数据形成第二数据；根据所述第一数据构建旅游知识图谱；将所述第一数据中缺失实体的三元组和第二数据输入加权图卷积神经网络模型中，计算得到从第二数据中的待选实体与所述缺失实体的三元组的链接可能性评分；将评分最高的待选实体作为目标实体补入对应的所述缺失实体的三元组。能获取高质量的实体和关系链接可能性，明显提升知识图谱补全效果。权利要求书3页说明书8页附图3页 CN 115186108 A 2022.10.14 CN 115186108 A 1.一种用于知识图谱补全的处理方法，其特征在于，应用于旅游知识图谱，所述旅游知识图谱包括三元组，所述三元组包括头实体、尾实体和关系实体，所述处理方法包括：获取旅游数据，预处理所述旅游数据得到第一数据和第二数据，所述第一数据包括含有两种以上实体的三元组，剩余数据形成第二数据；根据所述第一数据构建旅游知识图谱；将所述第一数据中缺失实体的三元组和第二数据输入加权图卷积神经网络模型中，计算得到从第二数据中的待选实体与所述缺失实体的三元组的链接可能性评分；将评分最高的待选实体作为目标实体补入对应的所述缺失实体的三元组。 2.根据权利要求1所述的用于知识图谱补全的处理方法，其特征在于，所述加权图卷积神经网络模型的训练步骤包括：获取训练数据，所述训练数据包括旅游关联的知识图谱；将所述训练数据输入W ‑GCN模型，得到图结构表示模型，所述图结构表示模型以知识图谱为输入，以节点嵌入作为输出；将所述节点嵌入输入RotatE模型，训练得到嵌入模型，所述三元组表示模型以节点嵌入为输入，输出为实体间的链接可能性评分。 3.根据权利要求2所述的用于知识图谱补全的处理方法，其特征在于，所述RotatE模型采用自我对抗负采样方法进行训练，训练步骤包括：定义评分函数得到评分为正的正三元组与评分为负的负三元组，函数公式为：其中{h， r， t}＝eiθ＝cosθ+isinθ， h为头实体、 t为尾实体、 r为关系实体、是哈达玛内积，将虚数单位i视作在复数空间中的旋转，该恒等式中e代表连续， i代表旋转， ei就代表连续旋转；对所述负三元组进行采样，负采样概率计算公式为：其中， α 是采样概率， (h′j， r， t′j)表示(hi， ri， ti)对应的负样本， hi表示第i个头实体；根据所述正三元组与所述三元组的评分计算模型损失，并将付采样概率加入损失函数中，得到采样损失函数的计算公式：其中σ 为sigmoid函数， γ为margin距离超参数，使用A dam算法对所述采样损失函数公式极小化，迭代训练得到最终模型。 4.根据权利要求3所述的用于知识图谱补全的处理方法，其特征在于，所述RotatE模型的参数选择为： embed ding的维度设置为128维， batc h_size大小为1024。 5.一种用于知识图谱补全的处理系统，其特征在于，应用于旅游知识图谱，所述旅游知识图谱包括三元组，所述三元组包括头实体、尾实体和关系实体，所述处理系统包括：获取模块，用于获取旅游数据，预处理所述旅游数据得到第一数据和第二数据，所述第权　利　要　求　书 1/3 页 2 CN 115186108 A 2一数据包括含有两种以上实体的三元组，剩余数据形成第二数据；知识图谱模块，用于根据所述第一数据构建旅游知识图谱；加权图卷积神经网络模块，用于将所述第一数据中缺失实体的三元组和第二数据输入加权图卷积神经网络模型中，计算得到从第二数据中的待选实体与所述缺失实体的三元组的链接可能性评分；嵌入模块，用于将评分最高的待选实体作为目标实体补入对应的所述缺失实体的三元组。 6.根据权利要求5所述的用于知识图谱补全的处理系统，其特征在于，所述加权图卷积神经网络模块中所述加权图卷积神经网络模型的训练步骤包括：获取训练数据，所述训练数据包括旅游关联的知识图谱；将所述训练数据输入W ‑GCN模型，得到图结构表示模型，所述图结构表示模型以知识图谱为输入，以节点嵌入作为输出；将所述节点嵌入输入RotatE模型，训练得到嵌入模型，所述三元组表示模型以节点嵌入为输入，输出为实体间的链接可能性评分。 7.根据权利要求6所述的用于知识图谱补全的处理系统，其特征在于，所述RotatE模型采用自我对抗负采样方法进行训练，训练步骤包括：定义评分函数得到评分为正的正三元组与评分为负的负三元组，函数公式为：其中{h， r， t}＝eiθ＝cosθ+isinθ， h为头实体、 t为尾实体、 r为关系实体、是哈达玛内积，将虚数单位i视作在复数空间中的旋转，该恒等式中e代表连续， i代表旋转， ei就代表连续旋转；对所述负三元组进行采样，负采样概率计算公式为：其中， α 是采样概率， (h′j， r， t′j)表示(hi， ri， ti)对应的负样本， hi表示第i个头实体；根据所述正三元组与所述三元组的评分计算模型损失，并将付采样概率加入损失函数中，得到采样损失函数的计算公式：其中σ 为sigmoid函数， γ为margin距离超参数，使用A dam算法对所述采样损失函数公式极小化，迭代训练得到最终模型。 8.根据权利要求7所述的用于知识图谱补全的处理方法，其特征在于，所述RotatE模型的参数选择为： embed ding的维度设置为128维， batc h_size大小为1024。 9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现如权利要求 1‑4中任一项所述的用于知识图谱补全的处理方法。 10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处权　利　要　求　书 2/3 页 3 CN 115186108 A 3

专利 用于知识图谱补全的处理方法、系统、设备及介质

专利用于知识图谱补全的处理方法、系统、设备及介质