专利 文本数据比较方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210631816.9 (22)申请日 2022.06.07 (65)同一申请的已公布的文献号申请公布号 CN 114722160 A (43)申请公布日 2022.07.08 (73)专利权人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人张万鹏　张虎　谷学强　胡丽　项凤涛　王超　杨景照　张煜　 (74)专利代理机构长沙国科天河知识产权代理有限公司 432 25 专利代理师彭小兰 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/36(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) 审查员陈飞 (54)发明名称文本数据比较方法及装置 (57)摘要本申请涉及信息处理技术领域的一种文本数据比较方法及装置。所述方法包括获取两个数据字典表中的文本数据项集合，并对两个文本数据项集合进行分词处理，得到两个文本数据项集合中每一个元素的中文词语集合，计算两个文本数据项集合的元素之间的相似性度量，并通过预设相似比阈值对相似性度量进行预处理，得到相似度量矩阵，通过对字典表对比分析问题的抽象和建模，将两个文本数据项集合比对分析问题转化为一个二分图寻求最优匹配方案的问题，并利用KM算法对该问题进行求解。本方法实现了基于语义的字典表数据自动比对分析，有效的缓解了数据整编过程中依靠人工进行比对的工作压力，为数据对比自动化处理提供了一种新思路。权利要求书3页说明书9页附图3页 CN 114722160 B 2022.09.02 CN 114722160 B 1.一种文本数据比较方法，其特征在于，所述方法包括：获取两个数据字典表中的文本数据项集合，并对两个所述文本数据项集合进行分词处理，得到两个所述文本数据项集合中每一个元素的中文词语集合；根据两个所述文本数据项集合中每一个元素的中文词语集合，计算两个文本数据项集合的元素之间的相似性度量，并通过预设相似比阈值对所述相似性度量进行预处理，得到相似度量矩阵；所述相似性度量的计算公式为：其中，为相似比，为第一个文本数据项集合中第个元素包括的中文词语集合，为第二个文本数据项集合中第个元素包括的中文词语集合，是元素个数计数操作；根据所述相似度量矩阵和两个所述文本数据项集合，将两个文本数据项集合比对分析问题转化为带权二分图的匹配问题；采用KM算法对所述带权二分图的匹配问题进行求解，得到两个所述文本数据项集合之间的一组全局最优的匹配关系；其中，相似度量矩阵的行和列分别与第一个文本数据项集合中元素和第二个文本数据项集合中元素对应；步骤：根据两个所述文本数据项集合中每一个元素的中文词语集合，计算两个文本数据项集合的元素之间的相似性度量，并通过预设相似比阈值对所述相似性度量进行预处理，得到相似度量矩阵，包括：根据两个所述文本数据项集合中每一个元素的中文词语集合，计算两个文本数据项集合的元素之间的相似性度量；当两个文本数据项集合的元素之间的相似性度量大于等于预设相似比阈值时，相似度量矩阵对应位置的元素等于相似性度量；当两个文本数据项集合的元素之间的相似性度量小于预设相似比阈值时，相似度量矩阵对应位置的元素等于0。 2.根据权利要求1所述的方法，其特征在于，获取两个数据字典表中的文本数据项集合，并对两个所述文本数据项集合进行分词处理，得到两个所述文本数据项集合中每一个元素的中文词语集合，包括：获取两个数据字典表中的文本数据项集合；采用基于统计的分词方法对两个所述文本数据项集合中的元素进行分词处理，得到两个所述文本数据项集合中每一个元素的中文词语集合。 3.一种文本数据比较方法，其特征在于，所述方法包括：获取两个数据字典表中的文本数据项集合，并对两个所述文本数据项集合进行分词处理，得到两个所述文本数据项集合中每一个元素的中文词语集合；根据两个所述文本数据项集合中每一个元素的中文词语集合，计算两个文本数据项集合的元素之间的相似性度量，并通过预设相似比阈值对所述相似性度量进行预处理，得到权　利　要　求　书 1/3 页 2 CN 114722160 B 2相似度量矩阵；根据相似度量矩阵稀疏化的特点，将所述相似度量矩阵且切分为若干个彼此不相关的子相似度量矩阵；采用KM算法对每个子相似度量矩阵进行求解，得到两个所述文本数据项集合之间的一组全局最优的匹配关系；其中，相似度量矩阵的行和列分别与第一个文本数据项集合中元素和第二个文本数据项集合中元素对应；步骤：根据两个所述文本数据项集合中每一个元素的中文词语集合，计算两个文本数据项集合的元素之间的相似性度量，并通过预设相似比阈值对所述相似性度量进行预处理，得到相似度量矩阵，包括：根据两个所述文本数据项集合中每一个元素的中文词语集合，计算两个文本数据项集合的元素之间的相似性度量；当两个文本数据项集合的元素之间的相似性度量大于等于预设相似比阈值时，相似度量矩阵对应位置的元素等于相似性度量；当两个文本数据项集合的元素之间的相似性度量小于预设相似比阈值时，相似度量矩阵对应位置的元素等于0；其中，采用KM算法对每个子相似度量矩阵进行求解，得到两个所述文本数据项集合之间的一组全局最优的匹配关系，步骤中采用KM算法对增广路径的搜索时采用深度优先搜索算法。 4.根据权利要求3所述的方法，其特征在于，根据两个所述文本数据项集合中每一个元素的中文词语集合，计算两个文本数据项集合的元素之间的相似性度量，并通过预设相似比阈值对所述相似性度量进行预处理，得到相似度量矩阵，步骤中所述相似性度量的计算公式为：其中，为相似比，为第一个文本数据项集合中第个元素包括的中文词语集合，为第二个文本数据项集合中第个元素包括的中文词语集合，是元素个数计数操作。 5.根据权利要求3所述的方法，其特征在于，所述数据字典表包括数据编号字段；采用KM算法对每个子相似度量矩阵进行求解，得到两个所述文本数据项集合之间的一组全局最优的匹配关系，步骤前包括：根据所述数据编号字段，对一段时间前后更新的数据字典表进行比对。 6.一种文本数据比较装置，其特征在于，所述装置包括：比对数据获取模块，用于获取两个数据字典表中的文本数据项集合，并对两个所述文本数据项集合进行分词处理，得到两个所述文本数据项集合中每一个元素的中文词语集合；相似度量矩阵确定模块，用于根据两个所述文本数据项集合中每一个元素的中文词语权　利　要　求　书 2/3 页 3 CN 114722160 B 3

专利 文本数据比较方法及装置

专利文本数据比较方法及装置