说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210440426.3 (22)申请日 2022.04.25 (71)申请人 天津大学 地址 300072 天津市南 开区卫津路9 2号 (72)发明人 王鑫 刘鑫 陈子睿  (74)专利代理 机构 天津市北洋 有限责任专利代 理事务所 12 201 专利代理师 李丽萍 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于先验权 重增强的知识图谱的补全方法 (57)摘要 本发明公开了一种基于先验权重增强的知 识图谱的补全方法, 主要包括: 根据知识图谱中 的三元组, 构建负例三元组; 计算三元组中实体 对应类型的先验权重; 利用预训练模型学习实 体、 关系以及类型对应描述信息的句子级语义, 作为实体、 关系以及类型的初始嵌入; 采用先验 概率增强的注 意力机制, 将实体对应类型的先验 权重和计算得到的权重结合, 得到实体的类型整 体表示; 通过残差网络将实体的类型整体表示融 入实体初始嵌入中得到实体整体嵌入; 对实体整 体嵌入和关系嵌入进行2D  reshape和拼接操作; 将拼接好的向量经过动态卷积层, 产生特征图, 并映射到与初始嵌入相同维度的空间; 对映射向 量做向量乘法, 计算三元组得分, 并使用交叉熵 损失函数对 模型进行训练。 权利要求书3页 说明书11页 附图5页 CN 114780748 A 2022.07.22 CN 114780748 A 1.一种基于先验权重增强的知识图谱的补全方法, 知识图谱被形式化定义为G=(E, R, C, T), 其中, E表示实体集合, R表示关系集合, C表示实体类型集合, T代表训练集三元组集 合; 三元组形式化为τ=(h, r, t), 其中, 头实体h∈E, 尾实体t∈E, 关系r∈R; 头实体h对应类 型表示为ch, 尾实体t对应 类型表示 为ct; 其特征在于: 该方法由一个实体编码器和一个解码器来实现知识图谱的补全; 利用所述实体编码器实现如下 过程: 1‑1)对于训练集 三元组集 合T, 通过负采样方法得到负例三元组集 合T′; 1‑2)统计训练集三元组T和负例三元组T ′中头实体h出现对应类型ch的频率Fr eq(h, ch) 以及尾实体t出现对应 类型ct的频率Freq(t, ct); 1‑3)从训练集三元组集合T和负例三元组T ′中随机选择一个三元组, 分别将三元组中 的关系r、 头实体h和头实体对应类型ch以及尾实体t和尾实体对 应类型ct的文本描述信息作 为输入, 通过预训练语 言模型BERT得到初始嵌入, 包括: 头实体初始嵌入h ′和头实体类型嵌 入ch、 尾实体初始嵌入t ′和尾实体 类型嵌入ct以及关系嵌入r; 1‑4)通过先验权重增强的注意力机制, 将头实体初始嵌入h ′或尾实体初始嵌入t ′作为 Query, 对应头实体类型嵌入ch或尾实体类型嵌入ct作为Key和Value, 使用缩放点积方法得 到计算出的权 重矩阵; 通过非线性 函数对频率Freq(h, ch)或Freq(t, ct)进行变换 得到的先验权 重矩阵; 计算出的权重矩阵和先验权重矩阵加权求和, 通过Softmax概率化函数作为最终的权 重矩阵; 使用最终的权重矩阵对头实体类型嵌入ch或尾实体类型嵌入ct加权求和, 得到头 实体h 或尾实体t的类型整体表示 或 1‑5)通过残差网络分别将步骤1 ‑3)得到的头实体初始嵌入h ′和尾实体初始嵌入t ′与 步骤1‑4)得到的头实体h或尾实体t的类型整体表示 和 融合, 得到头实体整体嵌入h和 尾实体整体嵌入t; 利用所述 解码器实现如下 过程: 2‑1)将从编码器得到的头实体整体嵌入h和尾实体整体嵌入t和关系嵌入r进行 2Dreshape转换, 转换后包括头实体2D嵌入表示 关系2D嵌入表示 和尾实体2D嵌入表示 2‑2)通过拼接层, 分别将转换后的头实体2D嵌入表示 和关系2D嵌入表示 以及转换 后的尾实体2D嵌入表示 阳关系2D嵌入表示 拼接起来, 得到拼接向量 和 2‑3)将得到的拼接向量 和 通过动态卷积层, 生成特 征图; 2‑4)通过全连接层将所述特 征图映射到与所述初始嵌入相同的维度; 2‑5)通过向量乘得分函数计算 三元组得分; 2‑6)通过最小化交叉熵损失训练模型参数, 得到训练后的模型; 2‑7)以知识图谱中的实体 ‑关系对作为步骤2 ‑6)训练后的模型的输入, 将该模型输出 的得分大于 0.75的三元组作为 新增三元组用于补全知识图谱。 2.根据权利要求1所述的知识图谱的补全方法, 其特征在于, 步骤1 ‑3)的具体内容如权 利 要 求 书 1/3 页 2 CN 114780748 A 2下: 对于给定的三元组(h, r, t), 分别将关系r、 头实体h和头实体对应类型ch以及尾实体t和 尾实体对应类型ct的文本描述信息送入Hugging  Face公开预先训练好的BE RT模型当中, 将 BERT嵌入结果中句子级语义信息[CLS]嵌入作为相应初始嵌入表示。 3.根据权利要求1所述的知识图谱的补全方法, 其特征在于, 步骤1 ‑4)中, 获得最终的 权重矩阵的方法如下: 使用一个非线性函数f(x)=loga(x+1)作为频率到相关性的映射, 频率越高, 相关性越 高, 否则, 反之; 当频率小于0时, 相关性得到0; 对得到的相关性进行归一化处理, 作为实体 类型的先验权重矩阵; 通过将先验权重矩阵与计算出 的权重矩阵加权和, 然后归一化获得 最终的权 重矩阵, 计算公式如下: p(e, ce)=loga(Freq(e, ce)+1), a>1 其中, e对应实体初始嵌入, ce为实体e对应类型ce的初始嵌入, p(e, ce)为实体e表达类 型ce的先验权重矩阵, 为通过计算得出实体e表达类型ce的权重矩阵, 为实体e的类 型整体表示, n 为实体表达类型的数量。 4.根据权利要求1所述的知识图谱的补全方法, 其特征在于, 步骤2 ‑3)的具体过程如 下: 首先, 将拼接后的2D表示 和 依次经过平均池化层和带有Relu激活函数的两 层全连接层, 得到 z(x), 其中x代 表拼接后的2D表示 和 然后, 通过Softmax输出概 率化的卷积核权 重 πi: 其中, n代表卷积 核数量, z(x)表示通过平均池 化和两层线 性层得到的特征, 0≤πi≤1且 动态卷积核通过对每 个卷积核加权求和得到: 其中, ωi代表第i个卷积核, πi表示第i个卷积核的权重, ω(x)是由动态卷积层最终得 到的卷积核; 最后, 使用卷积核ω(x)对拼接后的2D表示 和 进行卷积操作, 得到特 征图。 5.根据权利要求1所述的知识图谱补全方法, 其特征在于, 步骤2 ‑4)中, 通过全连接层权 利 要 求 书 2/3 页 3 CN 114780748 A 3

.PDF文档 专利 基于先验权重增强的知识图谱的补全方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于先验权重增强的知识图谱的补全方法 第 1 页 专利 基于先验权重增强的知识图谱的补全方法 第 2 页 专利 基于先验权重增强的知识图谱的补全方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。