(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210701343.5
(22)申请日 2022.06.21
(65)同一申请的已公布的文献号
申请公布号 CN 114780691 A
(43)申请公布日 2022.07.22
(73)专利权人 安徽讯飞医疗股份有限公司
地址 230088 安徽省合肥市高新区望江西
路666号A5楼23-24层
(72)发明人 冯韬 胡加学 贺志阳 赵景鹤
肖飞 鹿晓亮 魏思
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 王雨
(51)Int.Cl.
G06F 16/33(2019.01)G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06F 16/332(2019.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
审查员 李梦诗
(54)发明名称
模型预训练及自然语言处理方法、 装置、 设
备及存储介质
(57)摘要
本申请公开了一种模型预训练及自然语言
处理方法、 装置、 设备及存储介质, 本申请在预训
练模型过程中, 获取到训练文本及所属领域的知
识图谱, 基于知识图谱查找训练文本中匹配的目
标实体词, 以及训练文本所匹配的三元组, 将训
练文本中目标 实体词进行掩码, 得到掩码后训练
文本, 同时, 选取一目标 实体词, 将其中头实体词
和关系词与训练文本拼接, 得到拼接后训练文
本, 进而以预测掩码后训练文本中被掩码的目标
实体词, 及预测拼接后训练文本包含的目标三元
组中的尾实体词为目标, 训练神经网络模型, 得
到预训练模型。 由此可见, 本申请将训练文本所
属领域的知识 图谱中的知识融入到模型预训练
过程中, 促进了模型对相关领域知识的理解和掌
握。
权利要求书3页 说明书12页 附图3页
CN 114780691 B
2022.12.02
CN 114780691 B
1.一种模型 预训练方法, 其特 征在于, 包括:
获取训练文本及所述训练文本所属领域的知识图谱;
查找所述训练文本 中与所述知识图谱 匹配的目标实体词, 并将所述训练文本中匹配的
目标实体词进行掩码, 得到掩码后训练文本;
基于所述知识图谱, 查找所述训练文本所匹配的三元组, 所述三元组包括头实体词、 关
系词及尾实体词;
在所述匹配的三元组中选取一目标三元组, 仅将选取的所述目标三元组中头实体词及
关系词与所述训练文本拼接, 得到拼接后训练文本; 同时确定所述拼接后训练文本的正例
标签和负例标签, 所述正例标签为所述 目标三元组中的尾实体词; 所述负例标签为所述训
练文本所匹配的各目标实体词中, 除所述 目标三元组中的头实体词和尾实体词外, 剩余的
每一实体词;
以预测所述掩码后训练文本中被掩码的目标实体词, 以及预测所述拼接后训练文本包
含的所述目标三元组中的尾实体词为目标, 基于所述拼接后训练文本的正例标签和负例标
签, 通过对比学习的方式训练神经网络模型, 直至达到设定训练结束条件, 得到预训练模
型。
2.根据权利要求1所述的方法, 其特征在于, 所述查找所述训练文本 中与所述知识图谱
匹配的目标实体词, 包括:
获取所述知识图谱中的实体词;
在所述训练文本中查找与所述知识图谱中的实体词相同的词, 作为目标实体词。
3.根据权利要求1所述的方法, 其特征在于, 所述将所述训练文本 中匹配的目标实体词
进行掩码, 得到掩码后训练文本, 包括:
将所述训练文本 中每一个目标实体词分别用设定掩码字符进行替代, 得到掩码后训练
文本;
或,
以偏向对所述目标实体词进行掩码的方式, 对所述训练文本进行随机掩码, 得到掩码
后训练文本 。
4.根据权利要求1所述的方法, 其特征在于, 所述基于所述知识图谱, 查找所述训练文
本所匹配的三元组, 包括:
获取所述知识图谱中包 含的三元组集 合;
对所述训练文本与 所述知识图谱匹配的各目标实体词 进行两两组合, 对组合后每一目
标实体词对, 判断所述目标实体词对是否存在于三元组集合中的一个三元组中, 若 是, 将目
标实体词对所存在的三元组作为所述训练文本匹配的三元组。
5.根据权利要求1所述的方法, 其特征在于, 所述基于所述知识图谱, 查找所述训练文
本所匹配的三元组, 包括:
对于三元组集 合中每一 三元组:
判断所述三元组中头实体词和尾实体词是否同时存在于所述训练文本中, 若是, 将所
述三元组作为所述训练文本所匹配的三元组。
6.根据权利要求1所述的方法, 其特征在于, 所述将选取的所述目标三元组中头实体词
及关系词与所述训练文本拼接, 得到拼接后训练文本, 包括:权 利 要 求 书 1/3 页
2
CN 114780691 B
2将选取的所述目标三元组中头实体词及关系词, 顺序拼接在所述训练文本的前面, 且
在所述关系词及所述训练文本之间用设定分隔符分隔, 得到拼接后训练文本 。
7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 以预测所述掩码后训练文本 中被
掩码的目标实体词, 以及预测所述拼接后训练文本包含的所述目标三元组中的尾实体词为
目标, 训练神经网络模型, 包括:
将所述掩码后训练文本及所述 拼接训练文本 输入至神经网络模型;
利用所述神经网络模型预测所述掩码后训练文本中掩码字符对应的原始字符, 并基于
模型预测结果确定第一损失函数;
利用所述神经网络模型预测所述拼接后训练文本包含的所述目标三元组中的尾实体
词, 并基于模型 预测结果确定第二损失函数;
基于所述第 一损失函数及所述第 二损失函数确定总损失函数, 并基于总损失函数更新
神经网络模型的参数。
8.根据权利要求7所述的方法, 其特征在于, 利用所述神经网络模型预测所述掩码后训
练文本中掩码字符对应的原 始字符, 包括:
利用神经网络模型确定掩码后训练文本 中每一字符的特征向量, 并基于掩码字符的特
征向量、 所述掩码字符前、 后最近邻的未掩码 字符的特征向量, 预测所述掩码字符对应的原
始字符。
9.根据权利要求7所述的方法, 其特征在于, 所述拼接后训练文本的标签包括正例标签
和负例标签, 所述正例标签为所述目标三元组中的尾实体词, 所述负例标签为, 所述训练文
本所匹配的各目标实体词中, 除所述 目标三元组中的头实体词和尾实体词外, 剩余的每一
实体词;
利用所述神经网络模型预测所述拼接后训练文本包含的所述目标三元组中的尾实体
词, 并基于模型 预测结果确定第二损失函数, 包括:
利用神经网络模型确定拼接后训练文本 中每一字符的特征向量, 并基于各字符的特征
向量, 确定所述 正例标签及负例标签各自的特 征向量;
基于所述正例标签及负例标签各自的特征向量, 计算正例标签及负例标签各自的得
分;
基于正例标签及负例标签各自的得分确定第二损失函数。
10.根据权利要求1所述的方法, 其特征在于, 所述训练文本为医学文本, 所述知识图谱
为医学知识图谱。
11.一种自然语言处 理方法, 其特 征在于, 包括:
获取待进行自然语言处 理的任务数据;
将所述任务数据输入至配置的自然语言处理任务模型, 得到模型输出的自然语言处理
结果;
所述自然语言处理任务模型为, 在权利要求1 ‑10任一项的模型预训练方法所得到的预
训练模型的基础上进行二次训练得到 。
12.一种模型 预训练装置, 其特 征在于, 包括:
数据获取 单元, 用于获取训练文本及所述训练文本所属领域的知识图谱;
目标实体词查找单 元, 用于查找所述训练文本中与所述知识图谱匹配的目标实体词;权 利 要 求 书 2/3 页
3
CN 114780691 B
3
专利 模型预训练及自然语言处理方法、装置、设备及存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:00:16上传分享