专利 基于文档属性赋值实体权重的知识图谱优化方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210924260.2 (22)申请日 2022.08.03 (65)同一申请的已公布的文献号申请公布号 CN 114969385 A (43)申请公布日 2022.08.30 (73)专利权人北京长河数智科技有限责任公司地址 100070 北京市丰台区汽车博物馆西路8号院3号楼7层70 5 专利权人山西长河科技股份有限公司 (72)发明人杨勇　张煇　 (74)专利代理机构北京法筑知识产权代理有限公司 1610 0 专利代理师张雨红 (51)Int.Cl. G06F 16/36(2019.01)G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/295(2020.01) 审查员张琳琳 (54)发明名称基于文档属性赋值实体权重的知识图谱优化方法及装置 (57)摘要本发明涉及知识图谱技术领域，揭露了一种基于文档属性赋值实体权重的知识图谱优化方法，包括：根据事务词条集提取目标词条集，根据目标语句集，提取候选三元组，判断关系词条相似度是否大于关系相似阈值，若大于则存入原始关系库及原始实体库，若不大于，则判断实体词条的相似度是否大于实体相似阈值，若大于，则将候选三元组存入原始关系库及原始实体库，若不大于，则返回提取候选三元组，对初始关系库及初始实体库优化，得到目标关系库及目标实体库。本发明还提出一种基于文档属性赋值实体权重的知识图谱优化装置、电子设备以及计算机可读存储介质。本发明可以解决知识图谱存在数据更新不及时，数据滞后严重的问题。权利要求书4页说明书12页附图3页 CN 114969385 B 2022.09.27 CN 114969385 B 1.一种基于文档属性赋值实体权重的知识图谱优化方法，其特征在于，所述方法包括：获取原始文档，根据所述原始文档中的词语特征，对所述原始文档进行文档领域分类，得到领域文本；识别所述领域文本对应的原始实体库及原始关系库，根据所述原始实体库及原始关系库中的原始实体词条及原始关系词条，在所述领域文本内提取文本语句；对所述文本语句进行分词处理，得到事务词条集，根据所述事务词条集中每个词条的支持度及置信度，在所述事务词条集中提取目标词条集；在所述领域文本内提取含有所述目标词条集中词条的语句，得到目标语句集；根据所述目标语句集中语句的动词，提取所述目标语句集中每条语句的候选三元组；判断所述候选三元组中的关系词条与所述原始关系库中任一原始关系词条的相似度是否大于预设的关系相似阈值；若所述候选三元组中的关系词条与所述原始关系库中任一原始关系词条的相似度大于相似阈值，则将所述候选三元组存入所述原始关系库及原始实体库，得到初始关系库及初始实体库；若所述候选三元组中的动词与所述原始关系库中任一原始关系词条的相似度不大于相似阈值，则判断所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度是否大于预设的实体相似阈值；若所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度大于所述实体相似阈值，则将所述候选三元组存入所述原始关系库及原始实体库，得到初始关系库及初始实体库；若所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度不大于所述实体相似阈值，则返回上述根据所述目标语句集中语句的动词，提取所述目标语句集中每条语句的候选三元组的步骤；计算所述实体词条的实体权重值，根据所述实体权重值对所述初始关系库及初始实体库进行优化，得到目标关系库及目标实体库。 2.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法，其特征在于，所述获取原始文档，包括：获取预构建的数据库表，在所述数据库表中提取结构化数据；在预构建的百科网页中爬取文档，整合所述结构化数据及爬取的所述文档，得到所述原始文档。 3.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法，其特征在于，所述根据所述原始文档中的词语特征，对所述原始文档进行文档领域分类，得到领域文本，包括：提取所述原始文档中的文档关键词，计算所述文档关键词的属性权重值；根据所述属性权重值，计算所述原始文档的词汇向量式；利用预构建的聚类算法，根据所述词汇向量式，对所述原始文档进行领域分类，得到所述领域文本。 4.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法，其特征在于，所述根据所述事务词条集中每个词条的支持度及置信度，在所述事务词条集中提取目标词权　利　要　求　书 1/4 页 2 CN 114969385 B 2条集，包括：利用预构建的支持度计算公式，计算所述事务词条集中每个词条的支持度，将所述支持度高于预设的支持阈值的词条作为频繁词项，得到频繁词项集，其中，所述支持度计算公式如下所示：其中，表示支持度，表示第个词条在所述领域文本内出现的次数，表示所述领域文本内的所有词语；利用预构建的置信度计算公式，计算所述频繁词项集中任意两个频繁词项对的置信度，在所述频繁词项集中提取置信度大于预设的置信阈值的频繁词项对，得到目标频繁词项对，其中所述置信度计算公式如下所示：其中，表示置信度，表示所述领域文本内第个频繁词项，表示所述领域文本内的频繁词项总数，表示所述频繁词项对中频繁词项的序号，表示所述频繁词项对中第个频繁词项与所述领域文本内第个频繁词项一起出现的次数，表示序号为的频繁词项与所述频繁词项对中另一频繁词项一起出现的次数；整合所述目标频繁词项对中的词语，得到所述目标词条集。 5.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法，其特征在于，所述根据所述目标语句集中语句的动词，提取所述目标语句集中每条语句的候选三元组，包括：对所述目标语句集中的每条语句进行指代消解及语句简化，得到标准语句集；识别所述标准语句集中每一条语句的动词，根据所述动词在所述标准语句集中提取所述动词的前置名词及后置名词；整合所述标准语句集中每一条语句的动词、前置名词及后置名词，得到所述候选三元组。 6.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法，其特征在于，所述计算所述实体词条的实体权重值，包括：根据所述原始文档的文档等级及引用次数，计算所述原始文档的文档权重；根据所述候选三元组在数据库表及百科网页中出现的次数，计算所述候选三元组的候选权重；根据所述文档权重及所述候选权重，利用预构建的权重公式，计算所述实体词条的实体权重值，其中所述权重公式如下所示：其中，表示实体权重值，表示文档权重，表示文档权重系数，表示候选权重，表示候选权重系数。权　利　要　求　书 2/4 页 3 CN 114969385 B 3

专利 基于文档属性赋值实体权重的知识图谱优化方法及装置

专利基于文档属性赋值实体权重的知识图谱优化方法及装置