(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210799507.2
(22)申请日 2022.07.08
(71)申请人 讯飞智元信息科技有限公司
地址 230088 安徽省合肥市高新区望江西
路666号讯飞大厦8层-10层
申请人 科大讯飞股份有限公司
(72)发明人 倪修峰 曹伟灿 范磊 施昀
张友国 刘江 吕军 胡少云
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 王雨
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06F 16/36(2019.01)G06N 3/08(2006.01)
(54)发明名称
实体识别模型训练方法、 实体识别方法、 装
置及相关 设备
(57)摘要
本申请公开了一种实体识别模 型训练方法、
实体识别方法、 装置及相关设备, 通过从知识图
谱中进行游走采样, 得到由五元 组序列组成的至
少一条游走路径, 可以基于游走路径中的五元组
序列生成对应的训练语句。 对训练语句中的实
体、 关系名和/或概念进行掩码, 得到掩码语句,
以预测掩码语句中被掩码的字符为目标训练语
言模型。 进一步可以对训练语句中的实体位置进
行标注, 并以标注有实体位置的训练语句作为训
练数据, 由此可以在不依赖人工标注的情况下,
得到大量的领域标注数据, 同时能够减少错标、
漏标等噪声, 进而利用训练数据对语 言模型进行
微调, 得到调整后的实体识别模型, 用于处理目
标领域下的实体识别任务, 实现了实体识别任务
的冷启动。
权利要求书3页 说明书17页 附图5页
CN 114936558 A
2022.08.23
CN 114936558 A
1.一种实体识别模型训练方法, 其特 征在于, 包括:
获取目标 领域的知识图谱;
从所述知识图谱中进行游走采样, 得到至少一条游走路径, 每一游走路径中包含五元
组序列, 序列中的每一 五元组包括头实体及其概念、 尾实体及其概念、 头实体和尾实体间的
关系名;
对于每一条游走路径, 基于其中包 含的五元组序列生成对应的训练语句;
对所述训练语句中的实体、 关系名和/或概念进行掩码, 得到掩码语句, 以预测所述掩
码语句中被掩码的字符为目标, 训练语言模型;
对所述训练语句中的实体位置进行标注, 并以标注有实体位置的训练语句作为训练数
据, 对训练后的语言模型进行微调, 得到调整后的实体识别模 型, 用于处理所述目标领域下
的实体识别任务。
2.根据权利要求1所述的方法, 其特征在于, 从所述知识图谱中进行游走采样, 得到至
少一条游走路径, 包括:
在所述目标知识图谱中选择至少一个节点, 作为 起始节点;
对于每一起始节点, 按照采样策略, 在所述目标知识图谱的节点间沿有向边以不同概
率进行转移, 节点每经过一次转移, 根据转移前后的两个节 点及有向边生成一个五元组, 每
次转移时, 由当前节点转移至任一邻居节点的概率, 根据当前节点之前游走过节点与所述
邻居节点间的距离, 和/或当前节点与所述邻居节点间的语义关系确定;
将生成的五元组添加到与起始节点对应的游走路径中, 直至游走路径的长度达到设定
长度为止, 得到与每一 起始节点对应的游走路径。
3.根据权利要求2所述的方法, 其特征在于, 根据当前节点之前游走过节点与 所述邻居
节点间的距离, 和/或当前节 点与所述邻居节点间的语义关系, 确定 当前节点转移至任一邻
居节点的概 率的过程, 包括:
根据当前节点之前游走过节点与所述邻居节点间的距离, 和/或当前节点与所述邻居
节点间的语义关系, 确定当前节点 转移至任一邻居节点的转移得分;
对于任一目标邻居节点:
基于当前节点转移至所述目标邻居节点的转移得分, 以及 当前节点转移至各邻居节点
的转移得分的总和, 确定当前节点 转移至所述目标邻居节点的概 率。
4.根据权利要求3所述的方法, 其特征在于, 所述根据当前节点之前游走过节点与 所述
邻居节点间的距离, 和/或当前节点与所述邻居节点间的语义关系, 确定 当前节点转移至任
一邻居节点的转移得分, 包括:
根据当前节点的上一节点与 所述邻居节点间的距离, 确定当前节点转移至所述邻居节
点的第一 转移得分;
根据当前节点与所述邻居节点间的语义关系, 确定当前节点转移至所述邻居节点的第
二转移得分;
根据所述第一转移得分, 和/或第 二转移得分, 确定当前节点转移至所述邻居节点的总
转移得分。
5.根据权利要求4所述的方法, 其特征在于, 所述根据当前节点的上一节点与 所述邻居
节点间的距离, 确定当前节点 转移至所述邻居节点的第一 转移得分, 包括:权 利 要 求 书 1/3 页
2
CN 114936558 A
2确定当前节点的上一节点与 所述邻居节点间的最短跳转 次数, 所述最短跳转 次数取值
范围为{0,1,2}, 不同的最短跳转次数对应有不同的转移得分设定值, 其中, 最短跳转次数0
对应的转移得分设定值由第一超参数控制, 最短跳转次数2对应的转移得分设定值由第二
超参数控制;
根据确定的当前节点的上一节点与 所述邻居节点间的最短跳转 次数, 选取对应的转移
得分设定值, 作为当前节点 转移至所述邻居节点的第一 转移得分。
6.根据权利要求4所述的方法, 其特征在于, 所述根据当前节点与所述邻居节点间的语
义关系, 确定当前节点 转移至所述邻居节点的第二 转移得分, 包括:
对于当前节点的任一目标邻居节点:
确定当前节点与所述目标邻居节点的目标关系名;
统计当前节点的所有邻居节点中, 与当前节点具备所述目标关系名的邻居节点的总个
数;
基于所述总个数、 所述当前节点的所有邻居节点的个数及第三超参数, 确定当前节点
转移至目标邻居节点的第二 转移得分, 其中, 所述总个数越大, 所述第二 转移得分越小。
7.根据权利要求4所述的方法, 其特征在于, 所述根据所述第 一转移得分, 和/或第二转
移得分, 确定当前节点 转移至所述邻居节点的总转移得分, 包括:
将所述第一转移得分与所述第 二转移得分的乘积, 作为当前节点转移至所述邻居节点
的总转移得分。
8.根据权利要求1所述的方法, 其特征在于, 所述对于每一条游走路径, 基于其中包含
的五元组序列生成对应的训练语句, 包括:
对于每一条游走路径, 基于其中包含的五元组序列, 按照设定的生成策略生成对应的
训练语句, 其中所述 生成策略包括:
路径拼接: 按照游走路径中各五元组的排序顺序, 将各五元组中头实体、 关系名、 尾实
体拼接为包含主谓宾的训练语句; 和/或, 按照游走路径中各五元组的排序顺序, 将各五元
组中头实体及其 概念、 关系名、 尾实体及其 概念拼接为包 含主谓宾的训练语句。
9.根据权利要求8所述的方法, 其特 征在于, 所述 生成策略还 包括以下一种或多种:
实体消融: 将按照路径拼接策略生成的语句中部分实体省略, 并转换为隐含语义表示,
得到训练语句;
宾语前置: 将按照路径拼接策略生成的语句中主语与宾语的位置调换, 并添加代词以
确保训练语句的语义上的一 致性;
概念替换: 将按照路径拼接策略生成的语句中, 部分实体替换为对应的概念或上位概
念, 得到训练语句;
句式变换: 将按照路径拼接策略生成的语句中部分实体及关系名省略, 并将语句转换
为针对省略部分的疑问句、 反问句和/或设问句, 得到转换后的训练语句。
10.根据权利要求1 ‑9任一项所述的方法, 其特征在于, 在对所述训练语句中的实体、 关
系名和/或概念进行掩码, 以及对所述训练语句 中的实体位置进行标注之前, 该方法还包
括:
对所述训练语句进行语义扩展, 得到扩展后训练语句;
则对所述训练语句中的实体、 关系名和/或概念进行掩码, 以及对所述训练语句中的实权 利 要 求 书 2/3 页
3
CN 114936558 A
3
专利 实体识别模型训练方法、实体识别方法、装置及相关设备
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:26上传分享