专利 知识图谱的表示学习方法和装置、存储介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210809749.5 (22)申请日 2022.07.11 (71)申请人腾讯科技（深圳）有限公司地址 518000 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人黄剑辉　 (74)专利代理机构北京康信知识产权代理有限责任公司 1 1240 专利代理师赵静 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/194(2020.01) G06F 40/30(2020.01) (54)发明名称知识图谱的表示学习方法和装置、存储介质及电子设备 (57)摘要本申请公开了一种知识图谱的表示学习方法和装置、存储介质及电子设备。其中，该方法包括：获取样本三元组集合；通过样本三元组集合对待训练的初始表示学习模型进行训练，直到初始表示学习模型对应的目标损失值满足预设的损失条件，得到目标表示学习模型。本申请解决了知识图谱表示为向量的准确性较低的技术问题。权利要求书4页说明书19页附图5页 CN 115114406 A 2022.09.27 CN 115114406 A 1.一种知识图谱的表示学习方法，其特征在于，包括：获取样本三元组集合，其中，所述样本三元组集合中的样本三元组包括：正样本三元组和负样本三元组，所述正样本三元组是目标知识图谱中的三元组，所述负样本三元组是未出现在所述目标知识图谱中的三元组，所述样本三元组中包括样本头实体、样本关系、样本尾实体，所述样本关系用于表示所述样本头实体到所述样本尾实体的关系；通过所述样本三元组集合对待训练的初始表示学习模型进行训练，直到所述初始表示学习模型对应的目标损失值满足预设的损失条件，得到目标表示学习模型，其中，所述目标表示学习模型用于将所述目标知识图谱中的三元组中的头实体、关系、尾实体分别编码成头实体向量、关系向量、尾实体向量，所述目标损失值是根据第一损失值和第二损失值确定得到的损失值，所述第一损失值是根据所述正样本三元组对应的第一距离和所述负样本三元组对应的第二距离确定得到的损失值，所述第二损失值是根据所述正样本三元组之间的预测相似度和实际相似度确定得到的损失值。 2.根据权利要求1所述的方法，其特征在于，所述通过所述样本三元组集合对待训练的初始表示学习模型进行训练，包括：通过以下步骤对所述初始表示学习模型进行第i轮训练， i为大于或等于1的正整数，第 0轮训练得到的初始表示学习模型为所述待训练的初始表示学习模型，包括：将所述样本三元组集合中第 i轮使用的第一正样本三元组、第二正样本三元组、第一负样本三元组输入第i ‑1轮训练得到的初始表示学习模型，得到第i轮训练输出的第一正样本三元组对应的第一正样本表示向量集合、所述第二正样本三元组对应的第二正样本表示向量集合，以及所述第一负样本三元组对应的第一负样本表示向量集合；根据所述第一正样本表示向量集合和所述第二正样本表示向量集合，确定所述第一正样本三元组与所述第二正样本三元组之间的预测相似度；根据所述第一正样本表示向量集合确定所述第一正样本三元组对应的所述第一距离，以及根据所述第一负样本表示向量集合，确定所述第一负样本对应的所述第二距离；通过所述第一正样本三元组对应的所述第一距离、所述第一负样本对应的所述第二距离确定第i轮训练得到的第一损失值，通过所述第一正样本三元组与所述第二正样本三元组之间的预测相似度、所述第一正样本三元组与所述第二正样本三元组之间实际相似度确定第i轮训练得到的第二损失值；通过所述第i轮训练得到的第一损失值与所述第i轮训练得到的第二损失值，得到第i 轮训练得到的目标损失值；在所述第 i轮训练得到的目标损失值满足所述预设的损失条件的情况下，结束训练，得到所述目标表示学习模型，在所述第i轮训练得到的目标损失值不满足所述预设的损失条件的情况下，对所述第i ‑1轮训练得到的初始表示学习模型的模型参数进行调整。 3.根据权利要求2所述的方法，其特征在于，所述根据所述第一正样本表示向量集合和所述第二正样本表示向量集合，确定所述第一正样本三元组与所述第二正样本三元组之间的预测相似度，包括：通过所述第一正样本表示向量集合确定所述第一正样本三元组的第一表征向量，通过所述第二正样本表示向量集合确定所述第二正样本三元组的第二表征向量；根据所述第一表征向量和所述第二表征向量确定所述第一正样本三元组与所述第二权　利　要　求　书 1/4 页 2 CN 115114406 A 2正样本三元组之间的预测相似度。 4.根据权利要求3所述的方法，其特征在于，所述通过所述第一正样本表示向量集合确定所述第一正样本三元组的第一表征向量，包括：将所述第一正样本表示向量集合中的第一正样本头向量、第一正样本关系向量、第一正样本尾向量的平均值，确定为所述第一正样本三元组的所述第一表征向量，其中，所述第一正样本头向量是所述第一正样本三元组中第一正样本头实体对应的向量，所述第一正样本关系向量是所述第一正样本三元组中第一正样本关系对应的向量，所述第一正样本尾向量是所述第一正样本三元组中第一正样本尾实体对应的向量；通过所述第二正样本表示向量集合确定所述第二正样本三元组的第二表征向量，包括：将所述第二正样本表示向量集合中的第二正样本头向量、第二正样本关系向量、第二正样本尾向量的平均值，确定为所述第二正样本三元组的所述第二表征向量，其中，所述第二正样本头向量是所述第二正样本三元组中第二正样本头实体对应的向量，所述第二正样本关系向量是所述第二正样本三元组中第二正样本关系对应的向量，所述第二正样本尾向量是所述第二正样本三元组中第二正样本尾实体对应的向量。 5.根据权利要求3所述的方法，其特征在于，所述根据所述第一表征向量和所述第二表征向量确定所述第一正样本三元组与所述第二正样本三元组之间的预测相似度，包括：将所述第一表征向量与所述第二表征向量的余弦函数的取值，确定为所述第一正样本三元组与所述第二正样本三元组之间的预测相似度。 6.根据权利要求2所述的方法，其特征在于，所述方法还包括：根据所述第一正样本三元组和所述第二正样本三元组在所述目标知识图谱中的链接关系，确定所述第一正样本三元组和所述第二正样本三元组之间的所述实际相似度。 7.根据权利要求6所述的方法，其特征在于，所述根据所述第一正样本三元组和所述第二正样本三元组在所述目标知识图谱中的链接关系，确定所述第一正样本三元组和所述第二正样本三元组之间的所述实际相似度，包括：获取所述第一正样本三元组的第一链接边总数量、所述第二正样本三元组的第二链接边总数量，以及所述第一正样本三元组和所述第二正样本三元组之间的第三链接边总数量；将所述第一链接边总数量和所述第二链接边总数量的和，确定为链接边数量总和；将所述第三链接边总数量与所述链接边数量总和的比值，确定为所述第一正样本三元组和所述第二正样本三元组之间的所述实际相似度。 8.根据权利要求7 所述的方法，其特征在于，获取所述第一正样本三元组的第一链接边总数量，包括：获取所述第一正样本三元组的第一正样本头实体在所述目标知识图谱中的链接边的第一数量，以及第一正样本尾实体在所述目标知识图谱中的链接边的第二数量；将所述第一数量和所述第二数量的和确定为所述第一链接边总数量；获取所述第二正样本三元组的第二链接边总数量，包括：获取所述第二正样本三元组的第二正样本头实体在所述目标知识图谱中的链接边的第三数量，以及第二正样本尾实体在所述目标知识图谱中的链接边的第四数量；将所述第三数量和所述第四数量的和确定为所述第二链接边总数量；权　利　要　求　书 2/4 页 3 CN 115114406 A 3

专利 知识图谱的表示学习方法和装置、存储介质及电子设备

专利知识图谱的表示学习方法和装置、存储介质及电子设备