说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210799507.2 (22)申请日 2022.07.08 (71)申请人 讯飞智元信息科技有限公司 地址 230088 安徽省合肥市高新区望江西 路666号讯飞大厦8层-10层 申请人 科大讯飞股份有限公司 (72)发明人 倪修峰 曹伟灿 范磊 施昀  张友国 刘江 吕军 胡少云  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 王雨 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/36(2019.01)G06N 3/08(2006.01) (54)发明名称 实体识别模型训练方法、 实体识别方法、 装 置及相关 设备 (57)摘要 本申请公开了一种实体识别模 型训练方法、 实体识别方法、 装置及相关设备, 通过从知识图 谱中进行游走采样, 得到由五元 组序列组成的至 少一条游走路径, 可以基于游走路径中的五元组 序列生成对应的训练语句。 对训练语句中的实 体、 关系名和/或概念进行掩码, 得到掩码语句, 以预测掩码语句中被掩码的字符为目标训练语 言模型。 进一步可以对训练语句中的实体位置进 行标注, 并以标注有实体位置的训练语句作为训 练数据, 由此可以在不依赖人工标注的情况下, 得到大量的领域标注数据, 同时能够减少错标、 漏标等噪声, 进而利用训练数据对语 言模型进行 微调, 得到调整后的实体识别模型, 用于处理目 标领域下的实体识别任务, 实现了实体识别任务 的冷启动。 权利要求书3页 说明书17页 附图5页 CN 114936558 A 2022.08.23 CN 114936558 A 1.一种实体识别模型训练方法, 其特 征在于, 包括: 获取目标 领域的知识图谱; 从所述知识图谱中进行游走采样, 得到至少一条游走路径, 每一游走路径中包含五元 组序列, 序列中的每一 五元组包括头实体及其概念、 尾实体及其概念、 头实体和尾实体间的 关系名; 对于每一条游走路径, 基于其中包 含的五元组序列生成对应的训练语句; 对所述训练语句中的实体、 关系名和/或概念进行掩码, 得到掩码语句, 以预测所述掩 码语句中被掩码的字符为目标, 训练语言模型; 对所述训练语句中的实体位置进行标注, 并以标注有实体位置的训练语句作为训练数 据, 对训练后的语言模型进行微调, 得到调整后的实体识别模 型, 用于处理所述目标领域下 的实体识别任务。 2.根据权利要求1所述的方法, 其特征在于, 从所述知识图谱中进行游走采样, 得到至 少一条游走路径, 包括: 在所述目标知识图谱中选择至少一个节点, 作为 起始节点; 对于每一起始节点, 按照采样策略, 在所述目标知识图谱的节点间沿有向边以不同概 率进行转移, 节点每经过一次转移, 根据转移前后的两个节 点及有向边生成一个五元组, 每 次转移时, 由当前节点转移至任一邻居节点的概率, 根据当前节点之前游走过节点与所述 邻居节点间的距离, 和/或当前节点与所述邻居节点间的语义关系确定; 将生成的五元组添加到与起始节点对应的游走路径中, 直至游走路径的长度达到设定 长度为止, 得到与每一 起始节点对应的游走路径。 3.根据权利要求2所述的方法, 其特征在于, 根据当前节点之前游走过节点与 所述邻居 节点间的距离, 和/或当前节 点与所述邻居节点间的语义关系, 确定 当前节点转移至任一邻 居节点的概 率的过程, 包括: 根据当前节点之前游走过节点与所述邻居节点间的距离, 和/或当前节点与所述邻居 节点间的语义关系, 确定当前节点 转移至任一邻居节点的转移得分; 对于任一目标邻居节点: 基于当前节点转移至所述目标邻居节点的转移得分, 以及 当前节点转移至各邻居节点 的转移得分的总和, 确定当前节点 转移至所述目标邻居节点的概 率。 4.根据权利要求3所述的方法, 其特征在于, 所述根据当前节点之前游走过节点与 所述 邻居节点间的距离, 和/或当前节点与所述邻居节点间的语义关系, 确定 当前节点转移至任 一邻居节点的转移得分, 包括: 根据当前节点的上一节点与 所述邻居节点间的距离, 确定当前节点转移至所述邻居节 点的第一 转移得分; 根据当前节点与所述邻居节点间的语义关系, 确定当前节点转移至所述邻居节点的第 二转移得分; 根据所述第一转移得分, 和/或第 二转移得分, 确定当前节点转移至所述邻居节点的总 转移得分。 5.根据权利要求4所述的方法, 其特征在于, 所述根据当前节点的上一节点与 所述邻居 节点间的距离, 确定当前节点 转移至所述邻居节点的第一 转移得分, 包括:权 利 要 求 书 1/3 页 2 CN 114936558 A 2确定当前节点的上一节点与 所述邻居节点间的最短跳转 次数, 所述最短跳转 次数取值 范围为{0,1,2}, 不同的最短跳转次数对应有不同的转移得分设定值, 其中, 最短跳转次数0 对应的转移得分设定值由第一超参数控制, 最短跳转次数2对应的转移得分设定值由第二 超参数控制; 根据确定的当前节点的上一节点与 所述邻居节点间的最短跳转 次数, 选取对应的转移 得分设定值, 作为当前节点 转移至所述邻居节点的第一 转移得分。 6.根据权利要求4所述的方法, 其特征在于, 所述根据当前节点与所述邻居节点间的语 义关系, 确定当前节点 转移至所述邻居节点的第二 转移得分, 包括: 对于当前节点的任一目标邻居节点: 确定当前节点与所述目标邻居节点的目标关系名; 统计当前节点的所有邻居节点中, 与当前节点具备所述目标关系名的邻居节点的总个 数; 基于所述总个数、 所述当前节点的所有邻居节点的个数及第三超参数, 确定当前节点 转移至目标邻居节点的第二 转移得分, 其中, 所述总个数越大, 所述第二 转移得分越小。 7.根据权利要求4所述的方法, 其特征在于, 所述根据所述第 一转移得分, 和/或第二转 移得分, 确定当前节点 转移至所述邻居节点的总转移得分, 包括: 将所述第一转移得分与所述第 二转移得分的乘积, 作为当前节点转移至所述邻居节点 的总转移得分。 8.根据权利要求1所述的方法, 其特征在于, 所述对于每一条游走路径, 基于其中包含 的五元组序列生成对应的训练语句, 包括: 对于每一条游走路径, 基于其中包含的五元组序列, 按照设定的生成策略生成对应的 训练语句, 其中所述 生成策略包括: 路径拼接: 按照游走路径中各五元组的排序顺序, 将各五元组中头实体、 关系名、 尾实 体拼接为包含主谓宾的训练语句; 和/或, 按照游走路径中各五元组的排序顺序, 将各五元 组中头实体及其 概念、 关系名、 尾实体及其 概念拼接为包 含主谓宾的训练语句。 9.根据权利要求8所述的方法, 其特 征在于, 所述 生成策略还 包括以下一种或多种: 实体消融: 将按照路径拼接策略生成的语句中部分实体省略, 并转换为隐含语义表示, 得到训练语句; 宾语前置: 将按照路径拼接策略生成的语句中主语与宾语的位置调换, 并添加代词以 确保训练语句的语义上的一 致性; 概念替换: 将按照路径拼接策略生成的语句中, 部分实体替换为对应的概念或上位概 念, 得到训练语句; 句式变换: 将按照路径拼接策略生成的语句中部分实体及关系名省略, 并将语句转换 为针对省略部分的疑问句、 反问句和/或设问句, 得到转换后的训练语句。 10.根据权利要求1 ‑9任一项所述的方法, 其特征在于, 在对所述训练语句中的实体、 关 系名和/或概念进行掩码, 以及对所述训练语句 中的实体位置进行标注之前, 该方法还包 括: 对所述训练语句进行语义扩展, 得到扩展后训练语句; 则对所述训练语句中的实体、 关系名和/或概念进行掩码, 以及对所述训练语句中的实权 利 要 求 书 2/3 页 3 CN 114936558 A 3

.PDF文档 专利 实体识别模型训练方法、实体识别方法、装置及相关设备

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实体识别模型训练方法、实体识别方法、装置及相关设备 第 1 页 专利 实体识别模型训练方法、实体识别方法、装置及相关设备 第 2 页 专利 实体识别模型训练方法、实体识别方法、装置及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:59:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。