说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210631816.9 (22)申请日 2022.06.07 (65)同一申请的已公布的文献号 申请公布号 CN 114722160 A (43)申请公布日 2022.07.08 (73)专利权人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区德雅路 109号 (72)发明人 张万鹏 张虎 谷学强 胡丽  项凤涛 王超 杨景照 张煜  (74)专利代理 机构 长沙国科天河知识产权代理 有限公司 432 25 专利代理师 彭小兰 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/36(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) 审查员 陈飞 (54)发明名称 文本数据比较方法及装置 (57)摘要 本申请涉及信息处理技术领域的一种文本 数据比较方法及装置。 所述方法包括获取两个数 据字典表中的文本数据项集合, 并对两个文本数 据项集合进行分词处理, 得到两个文本数据项集 合中每一个元素的中文词语集合, 计算两个文本 数据项集合的元素之间的相似性度量, 并通过预 设相似比阈值对相似性度量进行预处理, 得到相 似度量矩阵, 通过对字典表对比分析问题的抽象 和建模, 将 两个文本数据项集合比对分析问题转 化为一个二 分图寻求最优匹配方案的问题, 并利 用KM算法对该问题进行求解。 本方法实现了基于 语义的字典表数据自动比对分析, 有效的缓解了 数据整编过程中依靠人工进行比对的工作压力, 为数据对比自动化处 理提供了一种新思路。 权利要求书3页 说明书9页 附图3页 CN 114722160 B 2022.09.02 CN 114722160 B 1.一种文本数据比较方法, 其特 征在于, 所述方法包括: 获取两个数据字典表中的文本数据项集合, 并对两个所述文本数据项集合进行分词处 理, 得到两个所述文本数据项集 合中每一个元 素的中文词语集 合; 根据两个所述文本数据项集合中每一个元素的中文词语集合, 计算两个文本数据项集 合的元素之间的相似性度量, 并通过预设相似比阈值对所述相似性度量进行预处理, 得到 相似度量矩阵; 所述相似性度量的计算公式为: 其中, 为相似比, 为第一个文本数据项集合中第 个元素包括的中文词 语集合, 为第二个文本数据项集合中第 个元素包括的中文词语集合, 是元素个数 计数操作; 根据所述相似度量矩阵和两个所述文本数据项集合, 将两个文本数据项集合比对分析 问题转化为带权二分图的匹配问题; 采用KM算法对所述带权二分图的匹配问题进行求解, 得到两个所述文本数据项集合之 间的一组全局最优的匹配关系; 其中, 相似度量矩阵的行和列分别与第 一个文本数据项集合中元素和第 二个文本数据 项集合中元素对应; 步骤: 根据两个所述文本数据项集合中每一个元素的中文词语集合, 计算两个文本数 据项集合的元素之间的相似性度量, 并通过预设相似比阈值对所述相似性度量进行预处 理, 得到相似度量矩阵, 包括: 根据两个所述文本数据项集合中每一个元素的中文词语集合, 计算两个文本数据项集 合的元素之间的相似性度量; 当两个文本数据项集合的元素之间的相似性度量大于等于预设相似比阈值 时, 相似度 量矩阵对应位置的元 素等于相似性度量; 当两个文本数据项集合的元素之间的相似性度量小于预设相似比阈值 时, 相似度量矩 阵对应位置的元 素等于0。 2.根据权利要求1所述的方法, 其特征在于, 获取两个数据字典表中的文本数据项集 合, 并对两个所述文本数据项集合进行分词处理, 得到两个所述文本数据项集合中每一个 元素的中文词语集 合, 包括: 获取两个数据字典表中的文本数据项集 合; 采用基于统计的分词方法对两个所述文本数据项集合中的元素进行分词处理, 得到两 个所述文本数据项集 合中每一个元 素的中文词语集 合。 3.一种文本数据比较方法, 其特 征在于, 所述方法包括: 获取两个数据字典表中的文本数据项集合, 并对两个所述文本数据项集合进行分词处 理, 得到两个所述文本数据项集 合中每一个元 素的中文词语集 合; 根据两个所述文本数据项集合中每一个元素的中文词语集合, 计算两个文本数据项集 合的元素之间的相似性度量, 并通过预设相似比阈值对所述相似性度量进行预处理, 得到权 利 要 求 书 1/3 页 2 CN 114722160 B 2相似度量矩阵; 根据相似度量矩阵稀疏化的特点, 将所述相似度量矩阵且切分为若干个彼此不相关的 子相似度量矩阵; 采用KM算法对每个子相似度量矩阵进行求解, 得到两个所述文本数据项集合之间的一 组全局最优的匹配关系; 其中, 相似度量矩阵的行和列分别与第 一个文本数据项集合中元素和第 二个文本数据 项集合中元素对应; 步骤: 根据两个所述文本数据项集合中每一个元素的中文词语集合, 计算两个文本数 据项集合的元素之间的相似性度量, 并通过预设相似比阈值对所述相似性度量进行预处 理, 得到相似度量矩阵, 包括: 根据两个所述文本数据项集合中每一个元素的中文词语集合, 计算两个文本数据项集 合的元素之间的相似性度量; 当两个文本数据项集合的元素之间的相似性度量大于等于预设相似比阈值 时, 相似度 量矩阵对应位置的元 素等于相似性度量; 当两个文本数据项集合的元素之间的相似性度量小于预设相似比阈值 时, 相似度量矩 阵对应位置的元 素等于0; 其中, 采用KM算法对每个子相似度量矩阵进行求解, 得到两个所述文本数据项集合之 间的一组全局最优的匹配关系, 步骤中采用KM算法对增广路径的搜索时采用深度优先搜索 算法。 4.根据权利要求3所述的方法, 其特征在于, 根据两个所述文本数据项集合中每一个元 素的中文词语集合, 计算两个文本数据项集合的元素之间的相似性度量, 并通过预设相似 比阈值对所述相似性度量进行预处理, 得到相似度量矩阵, 步骤中所述相似性度量的计算 公式为: 其中, 为相似比, 为第一个文本数据项集合中第 个元素包括的中文词语集合, 为第二个文 本数据项集合中第 个元素包括的中文词语集合, 是元素个数计 数操作。 5.根据权利要求3所述的方法, 其特 征在于, 所述数据字典表包括数据编号字段; 采用KM算法对每个子相似度量矩阵进行求解, 得到两个所述文本数据项集合之间的一 组全局最优的匹配关系, 步骤前包括: 根据所述数据编号字段, 对一段时间前后更新的数据字典表进行比对。 6.一种文本数据比较装置, 其特 征在于, 所述装置包括: 比对数据获取模块, 用于获取两个数据字典表中的文本数据项集合, 并对两个所述文 本数据项集合进行分词处理, 得到两个所述文本数据项集合中每一个元素的中文词语集 合; 相似度量矩阵确定模块, 用于根据两个所述文本数据项集合中每一个元素的中文词语权 利 要 求 书 2/3 页 3 CN 114722160 B 3

.PDF文档 专利 文本数据比较方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本数据比较方法及装置 第 1 页 专利 文本数据比较方法及装置 第 2 页 专利 文本数据比较方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:00:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。