(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210433696.1
(22)申请日 2022.04.24
(71)申请人 天津大学
地址 300072 天津市南 开区卫津路9 2号
(72)发明人 窦春柳 张小旺
(74)专利代理 机构 天津市北洋 有限责任专利代
理事务所 12 201
专利代理师 李素兰
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/211(2020.01)
G06F 40/284(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于虚词增强小样本关系抽取的知识图谱
构建方法
(57)摘要
本发明公开了一种基于虚词增强小样本关
系抽取的知识图谱构建方法, 包括从获取的自然
语言文本中自动识别出命名实体; 以获取的自然
语言文本和识别的实体对作为关系抽取模型的
输入, 输出实体间的关系; 对抽取的实体及关系
链向知识图谱中相应条目; 在已有的知识图谱基
础上自动推理出缺失的关系值, 进行知识图谱的
补全。 与现有技术相比, 本发明可 以避免大量人
工标注所带来的耗时耗力, 并且通过特定领域的
少量标签数据可以快速完成特定领域的关系抽
取任务, 同时, 它对于未见领域可 以有很好的泛
化性能, 实现快速精确的关系抽取。
权利要求书2页 说明书8页 附图5页
CN 115062156 A
2022.09.16
CN 115062156 A
1.一种基于虚词增强小样本关系抽取的知识图谱构建方法, 其特征在于, 该方法包括
以下步骤:
步骤1, 获取非结构化文本数据, 进行实体提取, 具体描述如下:
步骤1.1, 原始的非结构化文本即关系数据集, 按照关系类别从关系数据集中抽取M个
关系类别数据形成训练集Dtrain, 剩余的关系类别数据组成测试集Dval; 训练集Dtrain包含M个
类别, 每个类别下含有N个实例, 每个实例为xi=(si,hi,ti), xi为第i个实例, si为非结构化
句子, hi为si中的头实体, ti为si中的尾实体; 从训练集Dtrain中随机抽取M1个类别, 从每个类
别中随机抽取个N1实例构造支持集Dsuppport, Dsuppport中第j个元素记 为
rj为实例xj对应的yj关系类别标签; 从每个类别剩余的N ‑N1个样本中随机抽取N2个实例构造
查询集Dquery, Dquery中第k个元素记为
rk为实例xk对应的关系类别描述,
yk为实例xk对应的关系类别标签;
步骤1.2, 利用文本编码器Bert模型对训练集中实例进行编码, 生成上下文嵌入向量:
即: 对于每一个 实例xi=(si,hi,ti), si={w1,w2,...,wl}为实例句子si由l个单词wk组成; 以
句子si作为文本编码器的输入, 所生成的上下文嵌入向量记为Si={w1,w2,...,wl}, 其中每
个词
d为词向量的维度; 对于每一个关系描述ri={w'1,w'2,...,w'k,...,w'l}, w'k
为关系描述ri中第k个单词, l为关系描述ri中单词总个数, 以ri作为文本编码器的输入, 生
成的每个实例xi的上下文嵌入向量记为Ri={w'1,w'2,...,w'l}, 其中每 个词
步骤2, 将句子上下文嵌入向量Si与关系描述上下文嵌入向量Ri输入实词级别注意力模
块, 生成实词级别的关系表示, 具体过程描述如下:
步骤2.1, 计算 一个实词注意力向量
表达式如下:
αi=softmax(Si*uw+sum(Si(Ri)T)/d)
其中, 记忆单元
为一个可训练的参数, Si*uw为从句子Si中挑选出具有关键词特
征的单词, Si与Ri转置相乘表示从句子Si中挑选出与当前关系描述Ri语义相似的单词, sum
(·)为对矩阵中每一行的所有元素求和的运算符, 最后两者相加输入softmax层得到Si中
每个实词的重要性
步骤2.2, 将Si中的每个词按照αi加权求和, 形成实词级别的关系
表达式如下:
步骤3, 输入句子上下文 嵌入向量Si, 学习一个成分先验矩阵
其中的元素Ci,j为
句子si中wi与wj属于同一成分的概率, 利用成分先验矩阵加强与关键实词相邻的虚词的注
意力, 以进行后续虚词关系表示的学习, 具体描述如下:
步骤3.1, 计算si中邻近两个词属于同一成分的概 率, 表达式如下:
其中, sn,n+1为wn和右邻居wn+1属于同一成分的可能性, [ ·]n为矩阵的第n行;
步骤3.2, 对单词wn和右邻居wn+1属于同一成分的可能性sn,n+1与单词wn和左邻居wn‑1属于权 利 要 求 书 1/2 页
2
CN 115062156 A
2同一成分的可能性 sn,n+1使用softmax函数, 分别得到wn和wn+1属于同一成分的概率pn,n+1与wn
和wn‑1属于同一成分的概 率pn,n‑1, 表达式如下:
pn,n+1,pn,n‑1=softmax(sn,n+1,sn,n‑1)
进而得到wn与wn+1相连接的概 率an, 表达式如下:
步骤3.3, 由句子si中wi与wj之间所有的词对应的an计算得到元 素Ci,j, 表达式如下:
步骤4, 将句子上下文嵌入向量Si输入BILSTM模型, 通过虚词注意力模块获得虚词级别
的关系表示; 具体过程如下:
步骤4.1, 通用虚词重要性分布的计算如下:
βgeneral=softmax(E ‑Siuw)
其中,
为一个全1向量, E ‑Siuw为降低句子Si中与uw相关实词的重要性, 增加与uw
无关虚词的重要性, 输入softmax层得到虚词重要性 通用分布
步骤4.2, 计算具体句子下虚词重要性
表达式如下:
Ii=max( αi)
其中, Ii为权重最大值的索引, max( ·)为获取一个矩阵最大值的索引, C为成分先验矩
阵;
步骤4.3, 利用两类注意力权重βgeneral与βconstituent生成虚词级别的关系
表达式
如下:
βi=βgeneral+βconstituent
步骤4.4, 将通用虚词重要性βgeneral和具体句子下虚词重要性βconstituent相加得到
然后将Si中的每个词按照βi加权求和, 形成虚词级别的关系表示
步骤5, 将 步骤2得到的实词级别的关系
与步骤4得到的虚词级别的关系
连接得到短
语级关系表示
[; ]为按列拼接; 然后, 通 过平均支持集Dsuppport中相同类别的N1个
句子生成当前关系类别的原型表示
步骤6, 利用测试样本与步骤5得到的关系类别的原型表示的点积相似性进行类别预
测, 预测结果即抽取的关系类型:
对于测试样本s*,
s*·pi为测试样本与第i个关系 类别的原型
表示的点积, 结果 最高的当前关系类别的原型表示pi所对应的关系即为抽取的关系类型。权 利 要 求 书 2/2 页
3
CN 115062156 A
3
专利 基于虚词增强小样本关系抽取的知识图谱构建方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:10上传分享