说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210924260.2 (22)申请日 2022.08.03 (65)同一申请的已公布的文献号 申请公布号 CN 114969385 A (43)申请公布日 2022.08.30 (73)专利权人 北京长河数智科技有限责任公司 地址 100070 北京市丰台区汽车博物馆西 路8号院3号楼7层70 5 专利权人 山西长河科技股份有限公司 (72)发明人 杨勇 张煇  (74)专利代理 机构 北京法筑知识产权代理有限 公司 1610 0 专利代理师 张雨红 (51)Int.Cl. G06F 16/36(2019.01)G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/295(2020.01) 审查员 张琳琳 (54)发明名称 基于文档属性赋值实体权重的知识图谱优 化方法及装置 (57)摘要 本发明涉及知识图谱技术领域, 揭露了一种 基于文档属性赋值实体权重的知识图谱优化方 法, 包括: 根据事务词条集提取目标词条集, 根据 目标语句集, 提取候选三元组, 判断关系词条相 似度是否 大于关系相似阈值, 若大于则存入原始 关系库及原始实体库, 若不大于, 则判断实体词 条的相似度是否大于实体相似阈值, 若大于, 则 将候选三元 组存入原始关系库及原始实体库, 若 不大于, 则返回提取候选三元组, 对初始关系库 及初始实体库优化, 得到目标关系库及目标实体 库。 本发明还提出一种基于文档属性赋值实体权 重的知识图谱优化装置、 电子设备以及计算机可 读存储介质。 本发明可以解决知识图谱存在数据 更新不及时, 数据滞后严重的问题。 权利要求书4页 说明书12页 附图3页 CN 114969385 B 2022.09.27 CN 114969385 B 1.一种基于文档属性赋值实体权 重的知识图谱 优化方法, 其特 征在于, 所述方法包括: 获取原始文档, 根据 所述原始文档中的词语特征, 对所述原始文档进行文档领域分类, 得到领域文本; 识别所述领域文本对应的原始实体库及原始关系库, 根据 所述原始实体库及原始关系 库中的原 始实体词条及原 始关系词条, 在所述领域文本内提取文本语句; 对所述文本语句进行分词处理, 得到事务词条集, 根据所述事务词条集中每个词条的 支持度及置信度, 在所述事务词条集中提取目标词条集; 在所述领域文本内提取含有所述目标词条集中词条的语句, 得到目标语句集; 根据所述目标语句集中语句的动词, 提取 所述目标语句集中每条语句的候选三元组; 判断所述候选三元组中的关系词条与所述原始关系库中任一原始关系词条的相似度 是否大于预设的关系相似阈值; 若所述候选三元组中的关系词条与所述原始关系库中任一原始关系词条的相似度大 于相似阈值, 则将所述候选三元组存入所述原始关系库及原始实体库, 得到初始关系库及 初始实体库; 若所述候选三元组中的动词与所述原始关系库中任一原始关系词条的相似度不大于 相似阈值, 则判断所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相 似度是否大于预设的实体相似阈值; 若所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度大于 所述实体相似阈值, 则将所述候选三元组存入所述原始关系库及原始实体库, 得到初始关 系库及初始实体库; 若所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度不大 于所述实体相似阈值, 则 返回上述根据所述 目标语句集中语句的动词, 提取所述 目标语句 集中每条语句的候选三元组的步骤; 计算所述实体词条的实体权重值, 根据所述实体权重值对所述初始关系库及初始实体 库进行优化, 得到目标关系库及目标实体库。 2.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法, 其特征在于, 所述获取原 始文档, 包括: 获取预构建的数据库表, 在所述数据库表中提取 结构化数据; 在预构建的百科网页中爬取文档, 整合所述结构化数据及爬取的所述文档, 得到所述 原始文档。 3.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法, 其特征在于, 所述根据所述原始文档中的词语特征, 对所述原始文档进行文档领域分类, 得到领域文本, 包括: 提取所述原始文档中的文档关键词, 计算所述文档关键词的属性权 重值; 根据所述属性权 重值, 计算所述原 始文档的词汇向量式; 利用预构建的聚类算法, 根据 所述词汇向量式, 对所述原始文档进行领域分类, 得到所 述领域文本 。 4.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法, 其特征在于, 所述根据所述事务词条集中每个词条的支持度及置信度, 在所述事务词条集中提取目标词权 利 要 求 书 1/4 页 2 CN 114969385 B 2条集, 包括: 利用预构建的支持度计算公式, 计算所述事务词条集中每个词条的支持度, 将所述支 持度高于预设的支持阈值的词条作为频繁词项, 得到频繁词项集, 其中, 所述支持度计算 公 式如下所示: 其中, 表示支持度, 表示第 个词条在 所述领域文本内出现的次数, 表示所述领 域文本内的所有词语; 利用预构建的置信度计算公式, 计算所述频繁词项集中任意两个频繁词项对的置信 度, 在所述频繁词项集中提取置信度大于预设的置信阈值的频繁词项对, 得到目标频繁词 项对, 其中所述置信度计算公式如下 所示: 其中, 表示置信度, 表示所述领域文本内第 个频繁词项, 表示所述领域文本内 的频繁词项总数, 表示所述频繁词项对 中频繁词项的序号, 表示所述频繁词项对 中 第 个频繁词项与所述领域文本内第 个频繁词项一起出现的次数, 表示序号为 的 频繁词项与所述频繁词项对中另一频繁词项一 起出现的次数; 整合所述目标 频 繁词项对中的词语, 得到所述目标词条集。 5.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法, 其特征在于, 所述根据所述 目标语句集中语句的动词, 提取所述 目标语句集中每条语句的候选三元组, 包括: 对所述目标语句集中的每条语句进行指代消解及语句简化, 得到标准语句集; 识别所述标准语句集中每一条语句的动词, 根据 所述动词在所述标准语句集中提取所 述动词的前置名词及后置名词; 整合所述标准语句集中每一条语句的动词、 前置名词及后置名词, 得到所述候选三元 组。 6.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法, 其特征在于, 所述计算所述实体词条的实体权 重值, 包括: 根据所述原 始文档的文档等级及引用次数, 计算所述原 始文档的文档权 重; 根据所述候选三元组在数据库表及百科网页中出现的次数, 计算所述候选三元组的候 选权重; 根据所述文档权重及所述候选权重, 利用预构建的权重公式, 计算所述实体词条的实 体权重值, 其中所述权 重公式如下 所示: 其中, 表示实体权重值, 表示文档权重, 表示文档权重系数, 表示候选权 重, 表示候选权重系数。权 利 要 求 书 2/4 页 3 CN 114969385 B 3

.PDF文档 专利 基于文档属性赋值实体权重的知识图谱优化方法及装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于文档属性赋值实体权重的知识图谱优化方法及装置 第 1 页 专利 基于文档属性赋值实体权重的知识图谱优化方法及装置 第 2 页 专利 基于文档属性赋值实体权重的知识图谱优化方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:42:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。