(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210766484.5
(22)申请日 2022.07.01
(71)申请人 沈阳航空航天大 学
地址 110136 辽宁省沈阳市道义经济开发
区道义南大街37号
(72)发明人 朱继召 赵浩楠 段文昱 潘新龙
范纯龙 王海鹏 刘瑜 丁国辉
刘颢 郑学东 滕一平 李胜宇
(74)专利代理 机构 沈阳东大知识产权代理有限
公司 21109
专利代理师 李在川
(51)Int.Cl.
G06F 16/28(2019.01)
G06F 16/36(2019.01)
G06F 16/35(2019.01)G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于预训练模型与规则结合的武器装备实
体关系抽取方法
(57)摘要
本发明公开了基于预训练模型与规则结合
的武器装备实体 关系抽取方法, 涉及信息抽取技
术领域; 对武器装备文本数据集进行处理, 获得
武器装备及其属性值两类实体和实体 关系; 采用
预训练模型与规则知识结合的方法, 构建武器装
备实体关系抽取模型, 首先使用预训练模型完成
实体关系的初步抽取, 再引入到滤调模块对抽取
结果筛选, 得到过滤调整后的实体关系集合R1;
然后, 使用基于规则 知识的实体关系抽取模型对
武器装备文本数据集进行实体关系的再抽取, 得
到实体关系集合R2; 将R1与R2进行融合, 得到最终
的实体关系结果。 通过本发明可以实现从武器装
备领域的文本数据中抽取实体关系, 为武器装备
信息的知识化组织和管理提供新方法。
权利要求书4页 说明书9页 附图2页
CN 115114382 A
2022.09.27
CN 115114382 A
1.基于预训练模型与规则结合的武器装备实体关系抽取方法, 其特征在于: 包括以下
步骤:
S1: 对武器装备文本数据集进行去重、 填充或截断处理, 获得武器装备及其属性值两类
实体、 武器装备间的实体关系及武器装备与属性 值间的实体关系;
S2: 采用基于预训练的实体关系抽取模型与规则知识结合, 构建武器装备实体关系抽
取模型, 在基于预训练的实体关系抽取模型中完成实体关系的第一次抽取, 得到实体关系
抽取结果;
S3:将S2得到的实体关系抽取结果和武器装备文本数据集中提供的与抽取结果相对应
的实体对组成三元组引入过滤调整模型, 根据实体关系类型与头实体类型和尾实体类型间
的约束关系, 通过过滤层过滤掉头尾实体类型不满足约束规则的三元组, 将过滤出 的三元
组通过调整层对实体间关系进行调整, 得到过 滤和调整后的实体关系集 合R1;
S4: 使用基于规则知识的武器装备实体关系抽取模型对武器装备文本数据集进行实体
关系的第二次抽取, 得到实体关系集 合R2;
S5: 将R1与R2通过去重和 消融操作进行融合, 得到实体关系集 合R。
2.根据权利要求1所述的基于预训练模型与规则结合的武器装备实体关系抽取方法,
其特征在于:
所述S1具体包括以下步骤:
S1.1: 读取带实体和实体关系标签信息的武器装备文本数据集, 进行去重处理, 获得实
体集合以及实体 类型集合和实体关系集 合以及实体关系类型集 合;
S1.2: 按照设定基于预训练的实体关系抽取模型输入句子的字符长度对武器装备文本
数据集中的句子进行填充或截断处理, 并对武器装备文本数据集中的每条句子 分别增加句
首标志位和句尾标志位;
S1.3: 将处 理后的武器装备文本数据集划分为训练集、 验证集、 测试集。
3.根据权利要求2所述的基于预训练模型与规则结合的武器装备实体关系抽取方法,
其特征在于: 所述 填充或截断处 理为:
设定基于预训练的实体关系抽取模型输入的每条武器装备文本数据最大字符长度为
n1, 若武器装备文本数据集中句子的字符长度大于n1, 则将该句子在第n1‑2字符处截断, 再
加上句首标志位与句尾标志位即为最大字符长度n1, 若武器装备文本数据集中句子的字符
长度小于n1, 则使用O填充至n1‑2字符长度, 再加上句首 标志位与句尾标志位共n1字符长度。
4.根据权利要求1所述的基于预训练模型与规则结合的武器装备实体关系抽取方法,
其特征在于: 所述S2具体包括以下步骤:
S2.1: 使用基于预训练的实体关系抽取模型BERT层作为表示层, 将武器装备文本数据
集中的每条句子 输入表示层获得一组融合上 下文语义信息的词向量表示;
S2.2: 将融合上下文语义信息的词向量输入循环神经网络中, 得到整条句子对应的完
整隐藏层状态序列H;
S2.3: 将句子的完整隐藏层状态序列H引 入到卷积神经网络层, 通过卷积和池化操作,
得到融合句子局部和句子全局语义特 征的向量表示S;
S2.4: 将S输入全连接层, 得到的特征向量v引入输出层中使用分类器进行关系分类, 完
成实体间关系的抽取, 得到实体间关系的抽取 结果;权 利 要 求 书 1/4 页
2
CN 115114382 A
2S2.5: 根据实体间关系的抽取结果和 实体关系标签信息, 设定实体间关系抽取损失函
数, 完成基于预训练的实体关系抽取模型 的训练和测试, 并根据测试结果对基于预训练的
实体关系抽取模型进行 更新。
5.根据权利要求4所述的基于预训练模型与规则结合的武器装备实体关系抽取方法,
其特征在于:
所述循环神经网络采用BiGRU神经网络:
BiGRU神经网络采用前向GRU编码器和后向GRU编码器相结合的方式提取句子上下文特
征, 分别输出句中各词对应的单向隐藏层状态h'i和h”i, 并将h'i和h”i拼接得到句中各词对
应的融合上下文语义信息的隐藏层状态hi=[h'i; h”i], 整条句子对应的完整隐藏层状态序
列为H=[h0,h1,…,hn]。
6.根据权利要求4所述的基于预训练模型与规则结合的武器装备实体关系抽取方法,
其特征在于: 所述分类 器采用Softmax函数, 如式(1)所示:
其中: Softmax(vi)是实体关系集合中第i个实体关系的预测值; vi是输入的特征向量;
vj是向量第j个位置的权值; N是实体关系 总数;
所述设定实体间关系抽取损失函数为:
根据基于基于预训练的实体 关系抽取模型抽取的结果yi与真实关系标签
设定交叉
熵损失函数计算模型的损失值 L, 如式(2)所示:
根据损失值更新模型参数, 完成基于预训练的实体关系抽取模型的训练;
利用测试集对模型进行N次测试, 记录每次测试时模型的准确率P、 召回率R和F1值作 为
模型的评测指标, 如式(3) ‑式(5)所示:
其中, TP表示模型抽取出的实体关系三元组中正确的数量, FP表示抽取出的实体关系
三元组中不 正确的数量, FN表示未抽取 出的正确的实体关系三元组数量;
根据准确率、 召回率和F1值, 选取效果最好的一组模型参数, 作为基于预训练的实体关
系抽取模型的最终参数。
7.根据权利要求1所述的基于预训练模型与规则结合的武器装备实体关系抽取方法,
其特征在于: 所述S3具体包括以下步骤:
S3.1: 根据实体关系类型与头实体类型和尾实体类型间的约束关系, 建立用于实体间
关系过滤的过滤层, 以及调整实体间关系的调整层;
S3.2: 将S2.4实体间关系的抽取结果和武器装备文本数据集中提供的与抽取结果相对
应的实体对组成三元 组引入到过滤层, 通过过滤规则过滤掉头尾实体类型不满足约束规则
的三元组;权 利 要 求 书 2/4 页
3
CN 115114382 A
3
专利 基于预训练模型与规则结合的武器装备实体关系抽取方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:17上传分享