(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210635763.8
(22)申请日 2022.06.07
(65)同一申请的已公布的文献号
申请公布号 CN 114780756 A
(43)申请公布日 2022.07.22
(73)专利权人 国网浙江省电力有限公司信息通
信分公司
地址 310063 浙江省杭州市西湖区黄龙路8
号641室
专利权人 国网浙江省电力有限公司
福建亿榕信息技 术有限公司
(72)发明人 冯珺 陈建 毛冬 苏江文
张晓东 潘司晨 赵帅 张辰
(74)专利代理 机构 杭州华鼎知识产权代理事务
所(普通合伙) 33217
专利代理师 魏亮
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/31(2019.01)G06F 40/232(2020.01)
G06F 40/295(2020.01)
(56)对比文件
CN 112182330 A,2021.01.0 5
CN 108647318 A,2018.10.12
CN 108268581 A,2018.07.10
CN 110825881 A,2020.02.21
CN 112612902 A,2021.04.0 6
CN 113553439 A,2021.10.26
CN 112765486 A,2021.0 5.07
WO 2019223793 A1,2019.1 1.28
CN 106447346 A,2017.02.2 2
孟小峰, 等.大 数据融合研究:问题与挑战.
《计算机 研究与发展》 .2016,第5 3卷(第2期),
(续)
审查员 凡保磊
(54)发明名称
基于噪音检测和 噪音感知的实体对齐方法
及装置
(57)摘要
本发明提供一种基于噪音检测和噪音感知
的实体对齐方法及装置, 确定第一描述信息和第
二描述信息中存在语句错误的第一噪音数据, 根
据第一噪音数据对第一描述信息和第二描述信
息按照第一对齐方式进行处理; 基于第三子描述
信息对第一子描述信息和第二子描述信息按照
第二对齐方式进行处理; 根据第一知识图谱和第
二知识图谱的图谱属性对第一子描述信息和第
二子描述信息按照第二对齐方式进行处理。 本发
明能够在对相同领域的数据库进行 实体对齐时,
对相应的描述信息能够进行主动的噪音检测、 噪
音感知, 使得不仅能够进行实体对齐, 还能够自
动对描述信息进行噪音去除, 使得 实体对齐后的融合图谱内不存在相应的噪音数据。
[转续页]
权利要求书4页 说明书13页 附图2页
CN 114780756 B
2022.09.16
CN 114780756 B
(56)对比文件
Di Jin, 等.TransFusi on: Multi- Modal
Fusion for Video Ta g Inference via
Translati on-based Kn owledge Embed ding.《Proceedings of the 2 9th ACM
Internati onal Conference o n Multimedia》
.2021,2/2 页
2[接上页]
CN 114780756 B1.基于噪音检测 和噪音感知的实体对齐方法, 其特 征在于, 包括:
获取第一知识图谱处目标对齐实体的第 一描述信 息, 以及第 二知识图谱处目标对齐实
体的第二描述信息;
对所述第一描述信 息和第二描述信 息进行噪音检测, 确定第 一描述信 息和第二描述信
息中存在语句错误的第一噪音 数据, 根据所述第一噪音数据对第一描述信息和 第二描述信
息按照第一对齐方式进行处 理;
对第一描述信息和第二描述信息按照描述维度进行分解得到多个第一子描述信息和
第二子描述信息, 对相同描述维度的第一子描述信息和第二子描述信息进 行互斥信息的噪
音感知, 得到互斥的目标子描述信息及互斥维度;
若判断存在至少一个第 三知识图谱具有对所述互斥维度描述的第 三子描述信 息, 则基
于所述第三子描述信息对所述第一子描述信息和第二子描述信息按照第二对齐方式进行
处理;
若判断第三知识图谱中不存在与 所述互斥维度描述相对应的第 三子描述信 息, 则根据
所述第一知识图谱和第二知识图谱的图谱属 性对所述第一子描述信息和第二子描述信息
按照第二对齐方式进行处 理;
所述对所述第 一描述信 息和第二描述信 息进行噪音检测, 确定第 一描述信 息和第二描
述信息中存在语句错误的第一噪音数据, 根据所述第一噪音 数据对第一描述信息和第二描
述信息按照第一对齐方式进行处 理, 包括:
对所述第一描述信 息和第二描述信 息分词处理得到多个描述名词, 将所述描述名词与
电力行业语料库进行比对, 确定错误的描述名词和电力行业语料库中对应的正确名词, 基
于错误的描述名词生成第一噪音数据;
获取第一噪音数据中每个错误的描述名词所对应的正确名词, 将所述正确名词对第 一
描述信息和第二描述信息中错误的描述名词进 行替换处理, 得到第一对齐方式处理后的第
一描述信息和第二描述信息 。
2.根据权利要求1所述的基于噪音检测 和噪音感知的实体对齐方法, 其特 征在于,
所述对所述第 一描述信 息和第二描述信 息分词处理得到多个描述名词, 将所述描述名
词与电力行业语料库进行比对, 确定错误的描述名词和电力行业语料库中的正确名词, 基
于错误的描述名词生成第一噪音数据, 包括:
将描述名词与电力行业语料库中的语料名词进行比对, 若判断描述名词与电力行业语
料库中的所有语料名词都不同, 且描述名词 与部分语料名词的部 分字、 字的位置相同, 则对
所述描述名词进行扣字处 理得到多个少字名词, 每 个少字名词的少字位置不同;
确定与少字名词中所存在的字、 字的位置完全相对应的语料名词, 若所述语料名词为
一个, 则将所述语料名词作为与所述描述名词相对应的正确名词;
若所述语料名词为多个, 则获取所述目标对齐实体的实体属性, 将与所述实体属性相
对应的描述名词作为与所述描述名词相对应的正确名词。
3.根据权利要求2所述的基于噪音检测 和噪音感知的实体对齐方法, 其特 征在于,
所述确定与少字名词中所存在的字、 字的位置完全相对应的语料名词, 若所述语料名
词为一个, 则将所述语料名词作为与所述描述名词相对应的正确名词, 包括:
获取与所述描述名词相同字数的语料名词;权 利 要 求 书 1/4 页
2
CN 114780756 B
3
专利 基于噪音检测和噪音感知的实体对齐方法及装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:57:57上传分享