说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210470501.0 (22)申请日 2022.04.28 (71)申请人 北京明略昭辉科技有限公司 地址 100098 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人 王圣 高雅 卫海天  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 曾军 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) (54)发明名称 实体链接方法、 装置、 设备及 介质 (57)摘要 本申请涉及一种实体链接方法、 装置、 设备 及介质, 其中, 方法包括: 从目标数据中提取要素 数据, 其中, 目标数据包括待链接至对应实体数 据的字段; 将要素数据与预设要素库中的实体要 素进行匹配, 得到匹配结果, 其中, 预设要素库为 预先整理好的包括多个实体数据的实体要素的 数据库; 根据匹配结果确定目标数据待链接的目 标实体。 本申请通过对目标数据和预设要素库的 实体进行要素匹配的方法, 确定目标数据对应的 链接实体, 解决了人工匹配效率低和模型匹配需 要耗费大量标注数据的问题。 权利要求书2页 说明书10页 附图2页 CN 114860954 A 2022.08.05 CN 114860954 A 1.一种实体链接方法, 其特 征在于, 包括: 从目标数据中提取要素 数据, 其中, 所述目标 数据包括待链接 至对应实体数据的字段; 将所述要素数据与预设要素库中的实体要素进行匹配, 得到匹配结果, 其中, 所述预设 要素库为预 先整理好的包括多个实体数据的实体要素的数据库; 根据所述匹配结果确定所述目标 数据待链接的目标实体。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述要素数据与 预设要素库中的实 体要素进行匹配包括: 将所述要素数据中的第一主要要素分别和各个所述实体要素的第二主要要素进行匹 配; 在存在多个所述实体要素的所有所述第二主要要素与所述第一主要要素完全匹配的 情况下, 将多个所述实体要素对应的实体确定为第一候选实体, 并将第一次要要素分别与 多个所述第一候选实体的第二次要要素进行匹配, 其中, 所述要素数据包括所述第一主要 要素和所述第一次要 要素, 所述实体要素包括所述第二主 要要素和所述第二次要 要素; 在与所述第一次要要素匹配的所述第二次要要素的数量大于或等于第一阈值的所述 第一候选实体的数量大于或等于零的情况下, 将与所述第一次要要素匹配的所述第二次要 要素的数量大于或等于所述第一阈值的所述第一 候选实体确定为第二 候选实体。 3.根据权利要求2所述的方法, 其特征在于, 所述将所述要素数据中的第 一主要要素分 别和各个所述实体要素的第二主 要要素进行匹配之后, 所述方法还 包括: 当只存在一个所述实体要素的所述第 二主要要素与所述第 一主要要素完全匹配时, 将 所述实体要素对应的所述实体数据确定为所述第二 候选实体; 当不存在所述实体要素的所述第 二主要要素与 所述第一主要要素完全匹配时, 确定所 述第二候选实体不存在。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述匹配结果确定所述目标数据 待链接的目标实体包括: 当不存在所述第二 候选实体时, 确定所述目标 数据不存在待链接的所述目标实体; 当存在所述第 二候选实体且所述第 二候选实体的数量为一个时, 将所述第 二候选实体 确定为所述目标 数据待链接的所述目标实体; 当存在所述第 二候选实体且所述第 二候选实体的数量大于等于两个时, 利用所述目标 数据和各个所述第二 候选实体的相似度确定所述目标 数据待链接的所述目标实体。 5.根据权利要求4所述的方法, 其特征在于, 所述利用所述目标数据和各个所述第 二候 选实体的相似度确定所述目标 数据待链接的所述目标实体包括: 利用预设向量模型将各个所述第 二候选实体转换为实体向量, 将所述目标数据转化为 目标向量; 分别确定各个所述实体向量与所述目标向量的相似度, 并将所述相似度 大于或等于预 设阈值的所述实体向量对应的所述第二候选实体确定为所述目标数据待链接的所述目标 实体。 6.根据权利要求1所述的方法, 其特 征在于, 所述从目标 数据中提取要素 数据包括: 获取要素词典, 并利用所述要素词典从所述目标数据中提取初始数据, 其中, 所述初始 数据为所述目标 数据中的字符, 所述要素词典包括各种类型的标准要素词和同义要素词;权 利 要 求 书 1/2 页 2 CN 114860954 A 2在所述初始数据属于所述标准要素词的情况下, 直接将所述初始数据确定为所述要素 数据, 在所述初始数据属于所述同义要素词的情况下, 获取所述初始数据对应的所述标准 要素词, 并将所述标准要素词确定为所述要素 数据。 7.根据权利要求5所述的方法, 其特征在于, 所述方法还包括按照以下方式进行训练, 得到所述预设向量模型: 获取训练数据并对训练数据进行精简处 理, 以获得训练短句; 利用TSDAE框架将所述训练短句输入至初始模型进行训练, 输出训练结果; 在所述训练结果指示所述初始模型对所述训练短句的匹配准确度达到第二阈值的情 况下, 将所述初始模型确定为所述预设向量模型。 8.一种实体链接装置, 其特 征在于, 包括: 提取模块, 用于从目标数据中提取要素数据, 其中, 所述目标数据包括待链接至对应实 体数据的字段; 匹配模块, 用于将所述要素数据与预设要素库中的实体要素进行匹配, 得到匹配结果, 其中, 所述预设要素库为预 先整理好的包括多个实体数据的实体要素的数据库; 确定模块, 用于根据所述匹配结果确定所述目标 数据待链接的目标实体。 9.一种电子设备, 包括存储器、 处理器、 通信接口及通信总线, 所述存储器中存储有可 在所述处理器上运行 的计算机程序, 所述存储器、 所述处理器通过所述通信总线和所述通 信接口进行通信, 其特征在于, 所述处理器执行所述计算机程序时实现上述权利要求1至7 任一项所述的方法的步骤。 10.一种具有处理器可执行的非易失的程序代码的计算机可读介质, 其特征在于, 所述 程序代码使所述处 理器执行所述权利要求1至7任一所述方法。权 利 要 求 书 2/2 页 3 CN 114860954 A 3

.PDF文档 专利 实体链接方法、装置、设备及介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实体链接方法、装置、设备及介质 第 1 页 专利 实体链接方法、装置、设备及介质 第 2 页 专利 实体链接方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:59:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。