(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210809749.5
(22)申请日 2022.07.11
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518000 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 黄剑辉
(74)专利代理 机构 北京康信知识产权代理有限
责任公司 1 1240
专利代理师 赵静
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/36(2019.01)
G06F 40/194(2020.01)
G06F 40/30(2020.01)
(54)发明名称
知识图谱的表 示学习方法和装置、 存储介质
及电子设备
(57)摘要
本申请公开了一种知识图谱的表示学习方
法和装置、 存储介质及电子设备。 其中, 该方法包
括: 获取样本三元组集合; 通过样本三元组集合
对待训练的初始表示学习模型进行训练, 直到初
始表示学习模型对应的目标损失值满足预设的
损失条件, 得到目标表示学习模型。 本申请解决
了知识图谱表示为向量的准确性较低的技术问
题。
权利要求书4页 说明书19页 附图5页
CN 115114406 A
2022.09.27
CN 115114406 A
1.一种知识图谱的表示学习方法, 其特 征在于, 包括:
获取样本三元组集合, 其中, 所述样本三元组集合中的样本三元组包括: 正样本三元组
和负样本三元组, 所述正样本三元组是目标知识图谱中的三元组, 所述负样本三元组是未
出现在所述目标知识图谱中的三元组, 所述样 本三元组中包括样本头实体、 样本 关系、 样本
尾实体, 所述样本关系用于表示所述样本 头实体到所述样本尾实体的关系;
通过所述样本三元组集合对待训练 的初始表示学习 模型进行训练, 直到所述初始表示
学习模型对应的目标损失值满足预设的损失条件, 得到目标表示学习模型, 其中, 所述目标
表示学习模型用于将所述 目标知识图谱中的三元组中的头实体、 关系、 尾实体分别编码成
头实体向量、 关系向量、 尾实体向量, 所述目标损失值是根据第一损失值和第二损失值确定
得到的损失值, 所述第一损失值是根据所述正样本三元组对应的第一距离和所述负样本三
元组对应的第二距离确定得到的损失值, 所述第二损失值是根据所述正样本三元组之 间的
预测相似度和实际相似度确定得到的损失值。
2.根据权利要求1所述的方法, 其特征在于, 所述通过所述样本三元组集合对待训练 的
初始表示学习模型进行训练, 包括:
通过以下步骤对所述初始表示学习模型进行第i轮训练, i为大于或等于1的正整数, 第
0轮训练得到的初始 表示学习模型为所述待训练的初始 表示学习模型, 包括:
将所述样本三元组集合中第 i轮使用的第一正样本三元组、 第二正样本三元组、 第一负
样本三元 组输入第i ‑1轮训练得到的初始表 示学习模型, 得到第i轮训练输出的第一正样本
三元组对应的第一正样本表示向量集合、 所述第二正样本三元组对应的第二正样本表示向
量集合, 以及所述第一负 样本三元组对应的第一负 样本表示向量 集合;
根据所述第 一正样本表示向量集合和所述第 二正样本表示向量集合, 确定所述第 一正
样本三元组与所述第二 正样本三元组之间的预测相似度;
根据所述第 一正样本表示向量集合确定所述第 一正样本三元组对应的所述第 一距离,
以及根据所述第一负 样本表示向量 集合, 确定所述第一负 样本对应的所述第二距离;
通过所述第 一正样本三元组对应的所述第 一距离、 所述第 一负样本对应的所述第 二距
离确定第i轮训练得到的第一损失值, 通过所述第一正样本三元组与所述第二正样本三元
组之间的预测相似度、 所述第一正样本三元组与所述第二正样本三元组之 间实际相似度确
定第i轮训练得到的第二损失值;
通过所述第i轮训练得到的第一损失值与所述第i轮训练得到的第二损 失值, 得到第i
轮训练得到的目标损失值;
在所述第 i轮训练得到的目标损失值满足所述预设的损失条件的情况下, 结束训练, 得
到所述目标表示学习模型, 在所述第i轮训练得到的目标损失值不满足所述预设的损失条
件的情况 下, 对所述第i ‑1轮训练得到的初始 表示学习模型的模型参数进行调整。
3.根据权利要求2所述的方法, 其特征在于, 所述根据所述第 一正样本表示向量集合和
所述第二正样本表示向量集合, 确定所述第一正样本三元组与所述第二正样本三元组之间
的预测相似度, 包括:
通过所述第 一正样本表示向量集合确定所述第 一正样本三元组 的第一表征向量, 通过
所述第二 正样本表示向量 集合确定所述第二 正样本三元组的第二表征向量;
根据所述第一表征向量和所述第二表征向量确定所述第一正样本三元组与所述第二权 利 要 求 书 1/4 页
2
CN 115114406 A
2正样本三元组之间的预测相似度。
4.根据权利要求3所述的方法, 其特 征在于,
所述通过所述第 一正样本表示向量集合确定所述第 一正样本三元组的第 一表征向量,
包括: 将所述第一正样本表示向量集合中的第一正样本头向量、 第一正样本 关系向量、 第一
正样本尾向量的平均值, 确定为所述第一正样 本三元组的所述第一表征向量, 其中, 所述第
一正样本头向量是所述第一正样本三元组中第一正样本头实体对应的向量, 所述第一正样
本关系向量是所述第一正样本三元组中第一正样本 关系对应的向量, 所述第一正样本尾向
量是所述第一 正样本三元组中第一 正样本尾实体对应的向量;
通过所述第二正样本表示向量集合确定所述第二正样本三元组的第二表征向量, 包
括: 将所述第二正样本表示向量集合中的第二正样本头向量、 第二正样本 关系向量、 第二正
样本尾向量的平均值, 确定为所述第二正样本三元组的所述第二表征向量, 其中, 所述第二
正样本头向量是所述第二正样本三元组中第二正样本头实体对应的向量, 所述第二正样本
关系向量是所述第二正样本三元组中第二正样本关系对应的向量, 所述第二正样本尾向量
是所述第二 正样本三元组中第二 正样本尾实体对应的向量。
5.根据权利要求3所述的方法, 其特征在于, 所述根据所述第 一表征向量和所述第 二表
征向量确定所述第一 正样本三元组与所述第二 正样本三元组之间的预测相似度, 包括:
将所述第一表征向量与所述第 二表征向量的余弦函数的取值, 确定为所述第 一正样本
三元组与所述第二 正样本三元组之间的预测相似度。
6.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括:
根据所述第一正样本三元组和所述第二正样本三元组在所述目标知识图谱中的链接
关系, 确定所述第一 正样本三元组和所述第二 正样本三元组之间的所述实际相似度。
7.根据权利要求6所述的方法, 其特征在于, 所述根据所述第 一正样本三元组和所述第
二正样本三元组在所述目标知识图谱中的链接 关系, 确定所述第一正样本三元组和所述第
二正样本三元组之间的所述实际相似度, 包括:
获取所述第 一正样本三元组 的第一链接边总数量、 所述第 二正样本三元组的第 二链接
边总数量, 以及所述第一正样本三元组和所述第二正样本三元组之间的第三链接边总数
量;
将所述第一链接边总数量和所述第二链接边总数量的和, 确定为链接边数量总和;
将所述第三链接边总数量与 所述链接边数量总和的比值, 确定为所述第 一正样本三元
组和所述第二 正样本三元组之间的所述实际相似度。
8.根据权利要求7 所述的方法, 其特 征在于,
获取所述第一正样本三元组的第一链接边总数量, 包括: 获取所述第一正样本三元组
的第一正样本头实体在所述目标知识图谱中的链接边的第一数量, 以及第一正样本尾实体
在所述目标知识图谱中的链接边的第二数量; 将所述第一数量和所述第二数量的和确定为
所述第一链接边总数量;
获取所述第二正样本三元组的第二链接边总数量, 包括: 获取所述第二正样本三元组
的第二正样本头实体在所述目标知识图谱中的链接边的第三数量, 以及第二正样本尾实体
在所述目标知识图谱中的链接边的第四数量; 将所述第三数量和所述第四数量的和确定为
所述第二链接边总数量;权 利 要 求 书 2/4 页
3
CN 115114406 A
3
专利 知识图谱的表示学习方法和装置、存储介质及电子设备
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:00:49上传分享