(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210848773.X
(22)申请日 2022.07.19
(71)申请人 达而观信息科技 (上海) 有限公司
地址 201203 上海市浦东 新区中国 (上海)
自由贸易试验区亮秀路112号B座301、
303、 304室
(72)发明人 谭新 桂洪冠 陈希雷 董学强
纪达麒 陈运文
(74)专利代理 机构 北京品源专利代理有限公司
11332
专利代理师 倪焱
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)G06F 16/33(2019.01)
(54)发明名称
文本实体消歧方法、 装置、 电子设备及存储
介质
(57)摘要
本发明公开了文本实体消歧方法、 装置、 电
子设备及存储介质。 该方法包括: 识别输入短文
本中的所有字面量, 利用设定语料库或知识库生
成各字面量对应的候选实体; 利用各字面量与对
应候选实体的文本相似度, 及各字面量上下文信
息与对应候选实体的相关度, 计算各字面量对应
的候选实体的匹配 分数; 利用匹配 分数最高的候
选实体计算文本分割后各潜在实体字面量的先
验概率; 利用各先验概率对输入短文本二次文本
分割, 得到各字面量实体; 根据待选字面量实体
对应的候选实体与 目标字面量实体对应的候选
实体的一致性数值, 确定目标字面量实体对应的
消歧实体。 通过本发明的技术方案, 能够消除高
信息密度文本中实体的歧义, 提高了实体消歧的
速度及准确率。
权利要求书2页 说明书12页 附图5页
CN 115238091 A
2022.10.25
CN 115238091 A
1.一种文本实体消歧方法, 其特 征在于, 包括:
识别输入短文本 中的所有字面量, 并利用设定语料库或知识库生成各字面量对应的候
选实体;
利用各字面量与对应候选实体的文本相似度, 及各字面量上下文信 息与对应候选实体
的相关度, 计算各字面 量对应的候选实体的匹配分数;
利用匹配分数最高的候选实体 计算文本分割后各潜在实体字面 量的先验概 率;
利用各先验概率对输入短文本二次文本分割, 得到各字面 量实体;
根据各字面量实体中待选字面量实体对应的候选实体与目标字面量实体对应的候选
实体的一 致性数值, 确定目标字面 量实体对应的消歧实体。
2.根据权利要求1所述的方法, 其特征在于, 所述利用各字面量与对应候选实体的文本
相似度, 及各字面量上下文信息与对应候选实体的相关度, 计算各字面量对应的候选实体
的匹配分数, 包括:
利用公式: φ(m,e)=f(m,e) ·g(m,e)计算各字面量对应的候选实体的匹配分数; 其
中, m为字面量, e为候选实体, f(m,e)由字面量和对应候选实体的文本相似度确定; g(m,e)
由字面量上下文信息与对应候选实体的相关度确定;
表示字面量 ‑候选实体对的先验概率,
表示字面量与候选实体的字符相似度; Em为候选实体组
成的候选实体集, β 为 根据候选实体集的来源设置的分布参数。
3.根据权利要求1所述的方法, 其特征在于, 在利用匹配分数最高的候选实体计算文本
分割后各潜在实体字面 量的先验概 率之前, 还 包括:
利用原始文本切割公式:
对输入短文本进行文
本分割, 得到潜在实体字面量; 其中, P(ti)为切割字面量ti的概率,
freq(ti)为字面量ti的频率。
4.根据权利要求1所述的方法, 其特征在于, 所述利用匹配分数最高的候选实体计算文
本分割后各潜在实体字面 量的先验概 率, 包括:
利用公式:
计算文本分割后各潜在实体字面量的先
验概率; 其中, ek为匹配分数最高 的候选实体; pop(e)表示候选实体的受欢迎程度; λ为先验
系数。
5.根据权利要求3所述的方法, 其特征在于, 所述利用各先验概率对输入短文本二 次文
本分割, 得到各字面 量实体, 包括:
将原始文本切割公式中的字面量概率替换为各先验概率中的目标先验概率, 生成 目标权 利 要 求 书 1/2 页
2
CN 115238091 A
2文本切割公式;
利用目标文本切割公式对输入短文本二次文本分割, 得到各字面 量实体。
6.根据权利要求1所述的方法, 其特征在于, 所述根据各字面量实体中待选字面量实体
对应的候选实体与目标字面量实体对应的候选实体的一致性数值, 确定目标字面量 实体对
应的消歧实体, 包括:
利用公式:
计算实体消歧概率
值; 其中, coh(ei,ej)表示待选字面量实体对应的候选实体与目标字面量实体对应的候选实
体的一致性数值; Γ为待选字面量实体对应的各候选实体与目标字面量 实体对应的各候选
实体组成的候选实体集; N表示输入短文本中字面 量实体的个数;
将最大实体消 歧概率值中目标字面量实体对应的候选实体作为与目标字面量实体对
应的消歧实体。
7.根据权利要求6所述的方法, 其特 征在于, 所述方法, 还 包括:
利用公式: coh(ei,ej)=γ·rel(ei,ej)+(1‑γ)·sim(ei,ej)计算待选字面量实体对
应的候选实体与目标字面量实体对应的候选实体的一致性 数值; 其中, rel(ei,ej)为待选字
面量实体对应的候选实体与目标字面量实体对应的候选实体的相关性函数; sim(ei,ej)为
待选字面量 实体对应的候选实体与目标字面量实体对应的候选实体的相似性函数; γ为衡
量相关性 函数及相似性 函数的参数。
8.一种文本实体消歧装置, 其特 征在于, 包括:
候选实体生成模块, 用于识别输入短文本中的所有字面量, 并利用设定语料库或知识
库生成各字面 量对应的候选实体;
匹配分数计算模块, 用于利用各字面量与对应候选实体的文本相似度, 及各字面量上
下文信息与对应候选实体的相关度, 计算各字面 量对应的候选实体的匹配分数;
先验概率计算模块, 用于利用匹配分数最高的候选实体计算文本分割后各潜在实体字
面量的先验概 率;
字面量实体确定模块, 用于利用各先验概率对输入短文本二次文本分割, 得到各字面
量实体;
消歧实体确定模块, 用于根据 各字面量实体中待选字面量实体对应的候选实体与目标
字面量实体对应的候选实体的一 致性数值, 确定目标字面 量实体对应的消歧实体。
9.一种电子设备, 其特 征在于, 所述电子设备包括:
至少一个处 理器; 以及
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所
述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的
文本实体消歧方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指
令, 所述计算机指令用于使处理器执行时实现权利要求1 ‑7中任一项所述的文本实体消歧
方法。权 利 要 求 书 2/2 页
3
CN 115238091 A
3
专利 文本实体消歧方法、装置、电子设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:00:05上传分享