专利 基于先验权重增强的知识图谱的补全方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210440426.3 (22)申请日 2022.04.25 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人王鑫　刘鑫　陈子睿　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师李丽萍 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于先验权重增强的知识图谱的补全方法 (57)摘要本发明公开了一种基于先验权重增强的知识图谱的补全方法，主要包括：根据知识图谱中的三元组，构建负例三元组；计算三元组中实体对应类型的先验权重；利用预训练模型学习实体、关系以及类型对应描述信息的句子级语义，作为实体、关系以及类型的初始嵌入；采用先验概率增强的注意力机制，将实体对应类型的先验权重和计算得到的权重结合，得到实体的类型整体表示；通过残差网络将实体的类型整体表示融入实体初始嵌入中得到实体整体嵌入；对实体整体嵌入和关系嵌入进行2D reshape和拼接操作；将拼接好的向量经过动态卷积层，产生特征图，并映射到与初始嵌入相同维度的空间；对映射向量做向量乘法，计算三元组得分，并使用交叉熵损失函数对模型进行训练。权利要求书3页说明书11页附图5页 CN 114780748 A 2022.07.22 CN 114780748 A 1.一种基于先验权重增强的知识图谱的补全方法，知识图谱被形式化定义为G＝(E， R， C， T)，其中， E表示实体集合， R表示关系集合， C表示实体类型集合， T代表训练集三元组集合；三元组形式化为τ＝(h， r， t)，其中，头实体h∈E，尾实体t∈E，关系r∈R；头实体h对应类型表示为ch，尾实体t对应类型表示为ct；其特征在于：该方法由一个实体编码器和一个解码器来实现知识图谱的补全；利用所述实体编码器实现如下过程： 1‑1)对于训练集三元组集合T，通过负采样方法得到负例三元组集合T′； 1‑2)统计训练集三元组T和负例三元组T ′中头实体h出现对应类型ch的频率Fr eq(h， ch) 以及尾实体t出现对应类型ct的频率Freq(t， ct)； 1‑3)从训练集三元组集合T和负例三元组T ′中随机选择一个三元组，分别将三元组中的关系r、头实体h和头实体对应类型ch以及尾实体t和尾实体对应类型ct的文本描述信息作为输入，通过预训练语言模型BERT得到初始嵌入，包括：头实体初始嵌入h ′和头实体类型嵌入ch、尾实体初始嵌入t ′和尾实体类型嵌入ct以及关系嵌入r； 1‑4)通过先验权重增强的注意力机制，将头实体初始嵌入h ′或尾实体初始嵌入t ′作为 Query，对应头实体类型嵌入ch或尾实体类型嵌入ct作为Key和Value，使用缩放点积方法得到计算出的权重矩阵；通过非线性函数对频率Freq(h， ch)或Freq(t， ct)进行变换得到的先验权重矩阵；计算出的权重矩阵和先验权重矩阵加权求和，通过Softmax概率化函数作为最终的权重矩阵；使用最终的权重矩阵对头实体类型嵌入ch或尾实体类型嵌入ct加权求和，得到头实体h 或尾实体t的类型整体表示或 1‑5)通过残差网络分别将步骤1 ‑3)得到的头实体初始嵌入h ′和尾实体初始嵌入t ′与步骤1‑4)得到的头实体h或尾实体t的类型整体表示和融合，得到头实体整体嵌入h和尾实体整体嵌入t；利用所述解码器实现如下过程： 2‑1)将从编码器得到的头实体整体嵌入h和尾实体整体嵌入t和关系嵌入r进行 2Dreshape转换，转换后包括头实体2D嵌入表示关系2D嵌入表示和尾实体2D嵌入表示 2‑2)通过拼接层，分别将转换后的头实体2D嵌入表示和关系2D嵌入表示以及转换后的尾实体2D嵌入表示阳关系2D嵌入表示拼接起来，得到拼接向量和 2‑3)将得到的拼接向量和通过动态卷积层，生成特征图； 2‑4)通过全连接层将所述特征图映射到与所述初始嵌入相同的维度； 2‑5)通过向量乘得分函数计算三元组得分； 2‑6)通过最小化交叉熵损失训练模型参数，得到训练后的模型； 2‑7)以知识图谱中的实体 ‑关系对作为步骤2 ‑6)训练后的模型的输入，将该模型输出的得分大于 0.75的三元组作为新增三元组用于补全知识图谱。 2.根据权利要求1所述的知识图谱的补全方法，其特征在于，步骤1 ‑3)的具体内容如权　利　要　求　书 1/3 页 2 CN 114780748 A 2下：对于给定的三元组(h， r， t)，分别将关系r、头实体h和头实体对应类型ch以及尾实体t和尾实体对应类型ct的文本描述信息送入Hugging Face公开预先训练好的BE RT模型当中，将 BERT嵌入结果中句子级语义信息[CLS]嵌入作为相应初始嵌入表示。 3.根据权利要求1所述的知识图谱的补全方法，其特征在于，步骤1 ‑4)中，获得最终的权重矩阵的方法如下：使用一个非线性函数f(x)＝loga(x+1)作为频率到相关性的映射，频率越高，相关性越高，否则，反之；当频率小于0时，相关性得到0；对得到的相关性进行归一化处理，作为实体类型的先验权重矩阵；通过将先验权重矩阵与计算出的权重矩阵加权和，然后归一化获得最终的权重矩阵，计算公式如下： p(e， ce)＝loga(Freq(e， ce)+1)， a＞1 其中， e对应实体初始嵌入， ce为实体e对应类型ce的初始嵌入， p(e， ce)为实体e表达类型ce的先验权重矩阵，为通过计算得出实体e表达类型ce的权重矩阵，为实体e的类型整体表示， n 为实体表达类型的数量。 4.根据权利要求1所述的知识图谱的补全方法，其特征在于，步骤2 ‑3)的具体过程如下：首先，将拼接后的2D表示和依次经过平均池化层和带有Relu激活函数的两层全连接层，得到 z(x)，其中x代表拼接后的2D表示和然后，通过Softmax输出概率化的卷积核权重 πi：其中， n代表卷积核数量， z(x)表示通过平均池化和两层线性层得到的特征， 0≤πi≤1且动态卷积核通过对每个卷积核加权求和得到：其中， ωi代表第i个卷积核， πi表示第i个卷积核的权重， ω(x)是由动态卷积层最终得到的卷积核；最后，使用卷积核ω(x)对拼接后的2D表示和进行卷积操作，得到特征图。 5.根据权利要求1所述的知识图谱补全方法，其特征在于，步骤2 ‑4)中，通过全连接层权　利　要　求　书 2/3 页 3 CN 114780748 A 3

专利 基于先验权重增强的知识图谱的补全方法

专利基于先验权重增强的知识图谱的补全方法