说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210556843.4 (22)申请日 2022.05.20 (71)申请人 北京明略昭辉科技有限公司 地址 100098 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人 刘伟硕 于皓 张杰 王展  罗华刚 李犇  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 曾军 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/383(2019.01) (54)发明名称 实体链指方法和装置、 电子设备、 存 储介质 (57)摘要 本申请涉及一种实体链指方法和装置、 电子 设备、 存储介质, 其中, 该方法包括: 获取待链指 实体的第一语义特征和多个候选实体中与每个 候选实体对应的实体特征, 其中, 第一语义特征 用于指示待链指实体所在的第一文本的语义, 对 于每个候选实体, 候选实体对应的实体特征是根 据候选实体所在的训练文本进行预训练后得到 的、 用于表 示候选实体所在的训练文本的语义的 特征; 通过第一语义特征在所有实体特征中确定 出目标实体特征, 并将对应于目标 实体特征候选 实体确定为召回实体; 按照召回实体与待链指实 体的相似度, 从召回实体中确定待链指实体链指 的目标实体。 本申请解决了相关技术中实体链指 的准确度较低的技 术问题。 权利要求书3页 说明书11页 附图2页 CN 114969362 A 2022.08.30 CN 114969362 A 1.一种实体链指方法, 其特 征在于, 包括: 获取待链指实体的第一语义特征和多个候选实体中与每个所述候选实体对应的实体 特征, 其中, 所述第一语义特征用于指示所述待链指实体所在的第一文本的语义, 对于每个 所述候选实体, 所述候选实体对应的所述实体特征是根据所述候选实体所在的训练文本进 行预训练后得到的、 用于表示所述 候选实体所在的训练文本的语义的特 征; 通过所述第 一语义特征在所有所述实体特征中确定出目标实体特征, 并将对应于所述 目标实体特 征所述候选实体确定为召回实体; 按照所述召回实体与 所述待链指 实体的相似度, 从所述召回实体中确定所述待链指实 体链指的目标实体。 2.根据权利要求1所述的方法, 其特征在于, 在所述获取待链指实体的第 一语义特征和 多个候选实体中与每 个所述候选实体对应的实体特 征之前, 所述方法还 包括: 对第一训练文本进行预处理, 得到多个第二训练文本, 其中, 所述第 一训练文本为已标 注出所述候选实体和所述候选实体的实体类型的训练文本, 每个所述第二训练文本中包含 一个遮蔽词, 所述遮蔽词用于替换 所述第二训练文本中的所述 候选实体; 利用所述多个第 二训练文本对第 一词向量模型进行类型识别训练, 得到第 二词向量模 型; 利用所述多个第 二训练文本对所述第 二词向量模型进行实体识别训练, 得到第 三词向 量模型; 利用所述第三词向量模型提取 所述训练文本中每 个所述候选实体对应的实体特 征。 3.根据权利要求2所述的方法, 其特征在于, 所述遮蔽词还用于替换所述第 二训练文本 中的非实体, 所述对第一训练文本进行 预处理, 得到多个第二训练文本, 包括: 对所述第 一训练文本进行分词操作, 得到第一分词文本, 其中, 所述第 一分词文本 中的 词汇包含非实体和所述 候选实体; 对所述第一分词文本中的指定词通过所述遮蔽词进行遮蔽, 得到与 所述指定词对应的 所述第二训练文本, 其中, 所述指定词为所有所述非 实体和所有所述 候选实体中的任一个。 4.根据权利要求2所述的方法, 其特征在于, 所述遮蔽词还用于替换所述第 二训练文本 中的非实体, 所述利用所述多个第二训练文本对第一词向量模型进行类型识别训练, 得到 第二词向量模型, 包括: 利用所述第一词向量模型提取 各个所述第二训练文本中所述遮蔽词的第一特 征; 对于每个所述遮蔽词, 将所述遮蔽词的所述第一特征输入至第一全连接层, 得到所述 遮蔽词的预测类型; 根据所述遮蔽词的预测类型和所述遮蔽词对应的标注类型, 调整所述第 一词向量模型 的参数, 得到所述第二词向量模 型, 其中, 所述预测类型为所述 非实体的非实体类型或所述 候选实体的实体 类型。 5.根据权利要求2所述的方法, 其特征在于, 所述利用所述多个第 二训练文本对所述第 二词向量模型进行实体识别训练, 得到第三词向量模型, 包括: 利用所述第 二词向量模型对每个所述第 二训练文本 中所述遮蔽词进行特征提取, 得到 与每个所述第二训练文本对应的第二特 征; 在所述第二特征输入至第 一全连接层后, 得到所述遮蔽词的预测类型为实体类型的情权 利 要 求 书 1/3 页 2 CN 114969362 A 2况下, 将所述遮蔽词的第二特 征输入至第二全连接层, 得到每 个所述遮蔽词的预测实体; 根据所述遮蔽词的预测类型和所述遮蔽词对应的标注实体, 调整所述第 二词向量模型 的参数, 得到所述第三词向量模型。 6.根据权利要求1所述的方法, 其特征在于, 所述获取待链指实体的第一语义特征, 包 括: 将所述第一文本中的所述待链指实体替换为遮蔽词, 得到第二文本; 利用词向量模型提取所述遮蔽词在所述第 二文本中的语义特征, 得到所述第 一语义特 征。 7.根据权利要求1所述的方法, 其特征在于, 所述通过所述第 一语义特征在所有所述实 体特征中确定出目标实体特征, 并将对应于所述目标实体特征所述候选实体确定为召回实 体, 包括: 获取多个所述候选实体中与每个所述候选实体对应的第一全局特征, 其中, 对于每个 所述候选实体, 所述第一全局特征用于表示在所述待链指实体为所述候选实体的情况下, 所述候选实体在所述第一文本中的全局信息; 对于每个所述候选实体, 将所述第一语义特征、 所述候选实体对应的第一全局特征和 所述候选实体对应的所述实体特征进行拼接, 得到拼接后特征, 将所述拼接后特征输入至 第三全连接层, 得到所述召回实体。 8.根据权利要求1所述的方法, 其特征在于, 所述按照所述召回实体与 所述待链指 实体 的相似度, 从所述召回实体中确定所述待链指实体链指的目标实体, 包括: 获取所有所述召回实体中每 个所述召回实体与所述待链指实体的余弦相似度; 按照所有所述召回实体对应的余弦相似度, 从所有余弦相似度中确定一个目标余弦相 似度, 其中, 所述 目标余弦相似度不小于所述所有余弦相似度中除所述 目标余弦相似度之 外的其他余弦相似度; 将与所述目标余弦相似度对应的召回实体作为所述目标实体, 其中, 所述目标实体为 所述待链指实体的链指结果。 9.一种实体链指装置, 其特 征在于, 包括: 获取模块, 用于获取待链指实体的第 一语义特征和多个候选实体中与每个所述候选实 体对应的实体特征, 其中, 所述第一语义特征用于指示所述待链指实体所在的第一文本的 语义, 对于每个所述候选实体, 所述候选实体对应的所述实体特征是根据所述候选实体所 在的训练文本进行预训练后得到的、 用于表示所述候选实体所在的训练文本的语义的特 征; 召回模块, 用于通过所述第一语义特征在所有所述实体特征中确定出目标实体特征, 并将对应于所述目标实体特 征所述候选实体确定为召回实体; 确定模块, 用于按照所述召回实体与所述待链指实体的相似度, 从所述召回实体中确 定所述待链指实体链指的目标实体。 10.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器通过所述计算机程序执行上述权利要求1至8任 一项所述的实体链指方法的步骤。 11.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序权 利 要 求 书 2/3 页 3 CN 114969362 A 3

.PDF文档 专利 实体链指方法和装置、电子设备、存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实体链指方法和装置、电子设备、存储介质 第 1 页 专利 实体链指方法和装置、电子设备、存储介质 第 2 页 专利 实体链指方法和装置、电子设备、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:59:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。