(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210678820.0
(22)申请日 2022.06.15
(71)申请人 海南大学
地址 570000 海南省海口市人民大道58号
(72)发明人 黄梦醒 冯学忠 张文生 冯思玲
毋媛媛 冯文龙 张雨
(74)专利代理 机构 苏州中合知识产权代理事务
所(普通合伙) 32266
专利代理师 阮梅
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于知识蒸馏的增量式关系抽取方法
(57)摘要
本发明公开基于知识蒸馏的增量式关系抽
取方法, 包括如下步骤: 构建包括教师模型和学
生模型的增量式关系抽取模型, 其中, 教师模型
用于识别旧关系类别; 学生模型为教师模型的克
隆且扩展了分类层, 用于识别旧关系类别和新关
系类别; 基于数据集和损失函数对增量式关系抽
取模型进行训练, 训练过程中, 教师模型 以旧关
系类别数据作为输入; 学生模型以新关系类别数
据作为输入并在训练过程融合教师模型输出的
旧关系类别; 利用经训练的学生模 型对输入句子
进行增量式关系抽取。 本发明可以在学习新关系
类别的同时很好的保留模型先前学过的旧关系
类别知识。
权利要求书1页 说明书6页 附图1页
CN 115203404 A
2022.10.18
CN 115203404 A
1.基于知识蒸馏的增量式关系抽取 方法, 其特 征在于, 包括如下步骤:
构建包括教师模型和学生模型的增量式关系抽取模型, 其中, 教师模型用于识别旧关
系类别; 学生模型为教师模型的克隆且 扩展了分类层, 用于识别旧关系类别和新关系类别;
基于数据集和损 失函数对增量式关系抽取模型进行训练, 训练过程中, 教师模型以旧
关系类别数据作为输入; 学生模型以新关系类别数据作为输入并在训练过程融合教师模型
输出的旧关系类别;
利用经训练的增量式关系抽取模型对输入句子进行增量式关系抽取。
2.根据权利要求1所述的基于知识蒸馏的增量式关系抽取方法, 其特征在于, 还包括如
下步骤:
建立空列表, 用于储 存预定数量的旧关系类别数据;
从新关系类别数据中取出部分数据, 所述取出部分数据的数量与预先储存的旧关系类
别数据数量 一致;
将等量的新关系类别数据和旧关系类别数据在低学习率下对增量式关系抽取模型进
行微调。
3.根据权利要求1所述的基于知识蒸馏的增量式关系抽取方法, 其特征在于, 所述数据
集采用关系级别的完全随机采样策略对数据进行划分, 形成若干个不相交的关系簇, 每个
关系簇中仅包 含簇内关系类别的标注样本实例。
4.根据权利要求3所述的基于知识蒸馏的增量式关系抽取方法, 其特征在于, 所述关系
簇的数量与增量学习的步数一 致。
5.根据权利要求1所述的基于知识蒸馏的增量式关系抽取方法, 其特征在于, 所述增量
式关系抽取模型的损失函数L oss为:
Loss=α LKD+β LCE,
其中, α和β 为损失权重, LKD为教师模型和学生模型间实体信息蒸馏损失, LCE为学生模型
训练过程中交叉熵损失。
6.根据权利要求5所述的基于知识蒸馏的增量式关系抽取方法, 其特征在于, 所述蒸馏
损失LKD定义为:
其中, qi是将教师模型输出层使用温度T进行平滑后 经过softmax输出的旧关系 类别的
预测向量, si为学生模型输出层使用温度T进行平滑后经过softmax输出的旧关系类别的预
测向量, u为旧关系类别数量。
7.根据权利要求5所述的基于知识蒸馏的增量式关系抽取方法, 其特征在于, 所述交叉
熵损失LCE定义为:
其中, pi为学生模型输出层经过softmax输出 的新关系类别的预测向量, yi为新关系类
别标签的o ne‑hot表示, v为 新关系类别数量。
8.根据权利要求1所述的基于知识蒸馏的增量式关系抽取方法, 其特征在于, 所述增量
式关系抽取模型包括嵌入层、 Bi ‑LSTM层和分类层。权 利 要 求 书 1/1 页
2
CN 115203404 A
2基于知识 蒸馏的增量式关系抽取方 法
技术领域
[0001]本发明涉及关系抽取技 术领域, 尤其涉及基于知识蒸馏的增量式关系抽取 方法。
背景技术
[0002]大数据时代网络信息爆炸增长, 其中大多数信息主要以非结构化的文本形式存
储。 信息抽取是自然语 言处理领域的一项重要任务, 被广泛应用于知识图谱的构建, 推荐系
统等。 关系抽取是信息抽取下尤为重要的子任务, 旨在识别文本中的成对实体的关系事实,
从文本数据中自动获取结构化的事实知识, 与专注人工设计特征 的传统方法相比, 基于深
度学习的关系抽取 方法已取 得了显著成果。
[0003]在许多现实的场景中, 经常引入新的关系类别, 需要重新训练关系抽 取模型以支
持这些新关系类别。 如果直接在训练好的关系抽取模型学习新关系类别, 会导致模型对于
旧关系类别信息的丢失, 模型对于识别旧关系类别的性能会下降。 最简单 的方案是更新标
注规范使得预定义的关系集合涵盖新关系类别, 并重新标注训练数据, 然后扩展关系抽取
模型输出层以支持模型学习新关系类别, 最后使用重新注释的数据在修改的关系抽取模型
上重新训练模型。 然而, 为新关系类别重新标注训练数据的成本过大, 由于 关系类别的增加
为所有关系类别注释新数据集变得不切实际且容 易出错。
[0004]因此, 需要更灵活的策略来处理现实场景中不断增加的新关系类别。 目前, 存储部
分旧关系类别数据在学习新关系类别时进行重放这种基于记忆的方法已被证明是解决增
量式关系抽取的有效方法。 然而, 内存的 限制导致存储的数据有限, 随着关系类别数量的不
断增加, 旧关系类别和新关系类别数据不平衡问题越来越突出, 在这种情况下, 会导致模型
在训练过程中倾向于将样本数据预测为新关系类别; 同时, 模型容易过拟合存储的少量旧
关系类别数据, 可能会逐渐导 致现有关系之间不可避免的混淆。
发明内容
[0005]为了解决上述技术问题, 本发明提出基于知识蒸馏的增量式关系抽 取方法, 基于
知识蒸馏的增 量式关系抽取可以在学习新关系类别的同时很好的保留模型先前学过 的旧
关系类别知识。
[0006]为了达到上述目的, 本发明的技 术方案如下:
[0007]基于知识蒸馏的增量式关系抽取 方法, 包括如下步骤:
[0008]构建包括教师模型和学生模型的增量式关系抽 取模型, 其中, 教师模型用于识别
旧关系类别; 学生模型为教师模型 的克隆且扩展了分类层, 用于识别旧关系类别和 新关系
类别;
[0009]基于数据集和损失函数对增量式关系抽 取模型进行训练, 训练过程中, 教师模型
以旧关系类别数据作为输入; 学生模型以新关系类别数据作为输入并在训练过程融合教师
模型输出的旧关系类别;
[0010]利用经训练的增量式关系抽取模型对输入句子进行增量式关系抽取。说 明 书 1/6 页
3
CN 115203404 A
3
专利 基于知识蒸馏的增量式关系抽取方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:06上传分享