(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210589148.8
(22)申请日 2022.05.27
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518000 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 杨韬
(74)专利代理 机构 北京康信知识产权代理有限
责任公司 1 1240
专利代理师 周婷婷
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/33(2019.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
实体链接方法和装置、 存 储介质及电子设备
(57)摘要
本发明公开了一种实体链接方法和装置、 存
储介质及电子设备。 其中, 该方法包括: 获取目标
文本, 目标文本携带有待链接的目标实体; 获取
与目标文本对应的第一表征向量, 并获取实体数
据库中各个对象实体各自对应的第二表征向量;
根据第一表征向量与各个第二表征向量进行各
自匹配后的结果, 从实体数据库的各个对象实体
中获取与目标 实体相匹配的至少一个候选实体;
对目标文本与各个候选实体的实体描述信息分
别进行拼接, 得到多个候选输入文本; 获取与候
选输入文本相匹配的链接置信度; 根据链接置信
度从至少一个候选实体中确定出与 目标实体相
匹配的链接实体。 本发明解决了现有实体链接方
法准确率低的技 术问题。
权利要求书4页 说明书20页 附图6页
CN 115129883 A
2022.09.30
CN 115129883 A
1.一种实体链接方法, 其特 征在于, 包括:
获取目标文本, 所述目标文本携带有 待链接的目标实体;
获取与所述目标文本对应的第 一表征向量, 并获取实体数据库中各个对象实体各自对
应的第二表征向量, 其中, 所述第一表征向量用于表征所述目标文本的文本语义, 所述第二
表征向量用于表征 所述对象实体的实体 语义, 所述对象实体关联有实体描述信息;
根据所述第 一表征向量与 各个所述第 二表征向量进行各自匹配后的结果, 从所述实体
数据库的各个对象实体中获取与所述目标实体相匹配的至少一个候选实体;
对所述目标文本与 各个所述候选实体的实体描述信 息分别进行拼接, 得到多个候选输
入文本;
获取与所述 候选输入文本相匹配的链接 置信度;
根据所述链接置信度从所述至少一个候选实体中确定出与所述目标实体相匹配的链
接实体。
2.根据权利要求1所述的方法, 其特征在于, 所述获取与 所述目标文本对应的第 一表征
向量, 并获取实体数据库中各个对象实体各自对应的第二表征向量包括:
在对所述目标文本进行分词后得到的文本字符集中添加分割标识字符, 以构建出第 一
输入字符序列;
在语义编码器 中对所述第 一输入字符序列进行编码, 得到第 一表征向量集, 其中, 所述
第一表征向量 集中包括与所述第一输入字符序列中每 个字符分别对应的表征向量;
从所述第一表征向量 集中确定出 所述第一表征向量;
在对每个所述对象实体的实体描述信息进行分词后得到的描述字符集中添加分割标
识字符, 以构建出与所述对象实体匹配的第二输入字符序列;
在所述语义编码器中对所述第 二输入字符序列进行编码, 得到第二表征向量集, 其中,
所述第二表征向量 集中包括与所述第二输入字符序列中每 个字符分别对应的表征向量;
从所述第二表征向量 集中确定出 所述第二表征向量。
3.根据权利要求2所述的方法, 其特 征在于,
所述在对所述目标文本进行分词后得到的文本字符集中添加分割标识字符, 以构建出
第一输入字符序列包括:
从所述文本字符集中确定出所述目标实体中首个实体字符所在的第 一位置, 和所述目
标实体中末尾实体字符所在的第二 位置;
在所述第一位置之前与所述第 二位置之后分别添加第 一分割字符及第 二分割字符, 并
在所述目标文本之前 添加开始分割字符, 所述目标文本之后添加中止分割字符;
所述在对每个所述对象实体的实体描述信息进行分词后得到的描述字符集中添加分
割标识字符, 以构建出与所述对象实体匹配的第二输入字符序列包括:
从所述描述字符集中确定出所述对象实体中首个实体字符所在的第 三位置, 和所述对
象实体中末尾实体字符所在的第四位置;
在所述第三位置之前添加开始分割字符, 并在所述第 四位置之后添加字段分割字符;
在所述字段分割字符之后的多个描述字段 的首个字段字符各自所在的位置之后添加中止
分割字符。
4.根据权利要求1所述的方法, 其特征在于, 所述根据所述第 一表征向量与 各个所述第权 利 要 求 书 1/4 页
2
CN 115129883 A
2二表征向量各自对应的匹配结果, 从所述实体数据库中获取与所述目标实体相匹配的至少
一个候选实体包括:
对所述第一表征向量进行线性变换, 得到第一降维表征向量;
对各个所述第二表征向量分别进行线性变化, 得到多个第二降维表征向量;
依次计算所述第一降维表征向量与 各个所述第 二降维表征向量之间的匹配相似度, 并
将所述匹配相似度作为所述匹配结果;
在获取到全部的匹配结果的情况下, 对所述全部的匹配结果进行排序, 得到匹配结果
序列;
从所述匹配结果序列中获取与所述目标实体相匹配的所述至少一个候选实体。
5.根据权利要求2所述的方法, 其特征在于, 在所述获取携带有待链接的目标实体的目
标文本之前, 还 包括:
获取样本文本及与所述样本文本中所携带的实体关联的样本实体, 其中, 所述样本实
体配置有实体标签;
利用所述样本文本及所述样本实体, 对初始化状态下的所述语义编码器进行训练, 直
至达到第一收敛条件, 其中, 所述第一收敛条件用于指示所述语义编 码器连续N次输出的训
练损失值小于第一阈值, 其中, 第i次输出的训练损失值用于指示第i次训练所用的样本实
体配置的实体标签与第i次训练输出结果之间的差异, i为大于等于1, 且小于等于N的自然
数, N为自然数。
6.根据权利要求5所述的方法, 其特征在于, 所述利用所述样本文本及所述样本实体,
对初始化状态下的所述语义编码器进行训练包括:
在获取到第i次输出的训练结果的情况下, 从所述训练结果中确定出与所述样本文本
中所携带的实体不匹配的差异实体;
将所述差异实体添加到所述样本实体中, 得到更新后的样本实体;
利用所述更新后的样本实体, 对所述语义编码器进行第i+1次训练。
7.根据权利要求1所述的方法, 其特征在于, 所述对所述目标文本与 各个所述候选实体
的实体描述信息分别进行拼接, 得到多个候选 输入文本包括:
遍历各个所述 候选实体的实体描述信息, 分别执 行以下操作:
获取当前候选实体的实体描述信息;
在所述目标文本 中所述目标实体中首个实体字符所在位置之前添加第 一标识符, 并在
所述目标实体中末尾实体字符所在位置之后添加第二标识符;
在所述当前候选实体的实体描述信息中各个描述字段之间添加间隔标识符, 其中, 所
述描述字段包括与所述当前候选实体关联的关键属性字段;
在所述目标文本与 所述当前候选实体的实体描述信 息之间添加拼接字符, 并在所述目
标文本之前添加开始分割字符, 在所述当前候选实体的实体描述信息之后添加中止 分割字
符, 以得到与所述当前候选实体相匹配的当前候选 输入文本 。
8.根据权利要求7所述的方法, 其特征在于, 在获取当前候选实体的实体描述信息之
前, 还包括:
获取与所述目标文本关联的第 一属性字段集, 及所述当前候选实体关联的第 二属性字
段集;权 利 要 求 书 2/4 页
3
CN 115129883 A
3
专利 实体链接方法和装置、存储介质及电子设备
文档预览
中文文档
31 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:30上传分享