说明:收录各省市地方标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210924260.2 (22)申请日 2022.08.03 (65)同一申请的已公布的文献号 申请公布号 CN 114969385 A (43)申请公布日 2022.08.30 (73)专利权人 北京长河数智科技有限责任公司 地址 100070 北京市丰台区汽车博物馆西 路8号院3号楼7层70 5 专利权人 山西长河科技股份有限公司 (72)发明人 杨勇 张煇 (74)专利代理 机构 北京法筑知识产权代理有限 公司 1610 0 专利代理师 张雨红 (51)Int.Cl. G06F 16/36(2019.01)G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/295(2020.01) 审查员 张琳琳 (54)发明名称 基于文档属性赋值实体权重的知识图谱优 化方法及装置 (57)摘要 本发明涉及知识图谱技术领域, 揭露了一种 基于文档属性赋值实体权重的知识图谱优化方 法, 包括: 根据事务词条集提取目标词条集, 根据 目标语句集, 提取候选三元组, 判断关系词条相 似度是否 大于关系相似阈值, 若大于则存入原始 关系库及原始实体库, 若不大于, 则判断实体词 条的相似度是否大于实体相似阈值, 若大于, 则 将候选三元 组存入原始关系库及原始实体库, 若 不大于, 则返回提取候选三元组, 对初始关系库 及初始实体库优化, 得到目标关系库及目标实体 库。 本发明还提出一种基于文档属性赋值实体权 重的知识图谱优化装置、 电子设备以及计算机可 读存储介质。 本发明可以解决知识图谱存在数据 更新不及时, 数据滞后严重的问题。 权利要求书4页 说明书12页 附图3页 CN 114969385 B 2022.09.27 CN 114969385 B 1.一种基于文档属性赋值实体权 重的知识图谱 优化方法, 其特 征在于, 所述方法包括: 获取原始文档, 根据 所述原始文档中的词语特征, 对所述原始文档进行文档领域分类, 得到领域文本; 识别所述领域文本对应的原始实体库及原始关系库, 根据 所述原始实体库及原始关系 库中的原 始实体词条及原 始关系词条, 在所述领域文本内提取文本语句; 对所述文本语句进行分词处理, 得到事务词条集, 根据所述事务词条集中每个词条的 支持度及置信度, 在所述事务词条集中提取目标词条集; 在所述领域文本内提取含有所述目标词条集中词条的语句, 得到目标语句集; 根据所述目标语句集中语句的动词, 提取 所述目标语句集中每条语句的候选三元组; 判断所述候选三元组中的关系词条与所述原始关系库中任一原始关系词条的相似度 是否大于预设的关系相似阈值; 若所述候选三元组中的关系词条与所述原始关系库中任一原始关系词条的相似度大 于相似阈值, 则将所述候选三元组存入所述原始关系库及原始实体库, 得到初始关系库及 初始实体库; 若所述候选三元组中的动词与所述原始关系库中任一原始关系词条的相似度不大于 相似阈值, 则判断所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相 似度是否大于预设的实体相似阈值; 若所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度大于 所述实体相似阈值, 则将所述候选三元组存入所述原始关系库及原始实体库, 得到初始关 系库及初始实体库; 若所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度不大 于所述实体相似阈值, 则 返回上述根据所述 目标语句集中语句的动词, 提取所述 目标语句 集中每条语句的候选三元组的步骤; 计算所述实体词条的实体权重值, 根据所述实体权重值对所述初始关系库及初始实体 库进行优化, 得到目标关系库及目标实体库。 2.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法, 其特征在于, 所述获取原 始文档, 包括: 获取预构建的数据库表, 在所述数据库表中提取 结构化数据; 在预构建的百科网页中爬取文档, 整合所述结构化数据及爬取的所述文档, 得到所述 原始文档。 3.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法, 其特征在于, 所述根据所述原始文档中的词语特征, 对所述原始文档进行文档领域分类, 得到领域文本, 包括: 提取所述原始文档中的文档关键词, 计算所述文档关键词的属性权 重值; 根据所述属性权 重值, 计算所述原 始文档的词汇向量式; 利用预构建的聚类算法, 根据 所述词汇向量式, 对所述原始文档进行领域分类, 得到所 述领域文本 。 4.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法, 其特征在于, 所述根据所述事务词条集中每个词条的支持度及置信度, 在所述事务词条集中提取目标词权 利 要 求 书 1/4 页 2 CN 114969385 B 2条集, 包括: 利用预构建的支持度计算公式, 计算所述事务词条集中每个词条的支持度, 将所述支 持度高于预设的支持阈值的词条作为频繁词项, 得到频繁词项集, 其中, 所述支持度计算 公 式如下所示: 其中, 表示支持度, 表示第 个词条在 所述领域文本内出现的次数, 表示所述领 域文本内的所有词语; 利用预构建的置信度计算公式, 计算所述频繁词项集中任意两个频繁词项对的置信 度, 在所述频繁词项集中提取置信度大于预设的置信阈值的频繁词项对, 得到目标频繁词 项对, 其中所述置信度计算公式如下 所示: 其中, 表示置信度, 表示所述领域文本内第 个频繁词项, 表示所述领域文本内 的频繁词项总数, 表示所述频繁词项对 中频繁词项的序号, 表示所述频繁词项对 中 第 个频繁词项与所述领域文本内第 个频繁词项一起出现的次数, 表示序号为 的 频繁词项与所述频繁词项对中另一频繁词项一 起出现的次数; 整合所述目标 频 繁词项对中的词语, 得到所述目标词条集。 5.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法, 其特征在于, 所述根据所述 目标语句集中语句的动词, 提取所述 目标语句集中每条语句的候选三元组, 包括: 对所述目标语句集中的每条语句进行指代消解及语句简化, 得到标准语句集; 识别所述标准语句集中每一条语句的动词, 根据 所述动词在所述标准语句集中提取所 述动词的前置名词及后置名词; 整合所述标准语句集中每一条语句的动词、 前置名词及后置名词, 得到所述候选三元 组。 6.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法, 其特征在于, 所述计算所述实体词条的实体权 重值, 包括: 根据所述原 始文档的文档等级及引用次数, 计算所述原 始文档的文档权 重; 根据所述候选三元组在数据库表及百科网页中出现的次数, 计算所述候选三元组的候 选权重; 根据所述文档权重及所述候选权重, 利用预构建的权重公式, 计算所述实体词条的实 体权重值, 其中所述权 重公式如下 所示: 其中, 表示实体权重值, 表示文档权重, 表示文档权重系数, 表示候选权 重, 表示候选权重系数。权 利 要 求 书 2/4 页 3 CN 114969385 B 3
专利 基于文档属性赋值实体权重的知识图谱优化方法及装置
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-17 23:42:35
上传分享
举报
下载
原文档
(767.9 KB)
分享
友情链接
国家医疗保障局关于加强网络安全和数据保护工作的指导意见.pdf
思度安全-DSMM-019 数据安全事件应急管理规范V1.0.pdf
GB-T 32918.2-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第2部分:数字签名算法.pdf
T-NAIA 0215—2023 煤基厨灶用液体燃料.pdf
DB1331-T 028-2022 公路工程施工质量保证资料标准化导则 雄安新区.pdf
T CECC 027-2024 生成式人工智能数据应用合规指南.pdf
T-CAAMTB 112—2023 智能商用车线控底盘 接口 技术规范.pdf
GB/T 19237-2021 汽车用压缩天然气加气机.pdf
GB-T 5702-2019 光源显色性评价方法.pdf
T-FSCPLC 02—2021 汽车维修行业清洁生产评价指标体系.pdf
T-CNHAW 0010.1—2022 激光角膜屈光手术技术规范 第1部分:准分子激光角膜屈光手术.pdf
DB51-T 705-2023 四川主要造林树种苗木质量分级 四川省.pdf
GB-T 4209-2022 工业硅酸钠.pdf
GB-T 28827.1-2022 信息技术服务 运行维护 第1部分:通用要求.pdf
T-CRES 0008—2020 海上风力发电机组 验收规程.pdf
GB-T 42201-2022 智能制造 工业大数据时间序列数据采集与存储管理.pdf
GB-T 22484-2016 城市公共汽电车客运服务规范.pdf
GB-T 29422-2012 水泥化学分析废液的处理方法.pdf
T-CESA 1045—2019 智能音箱技术规范.pdf
GB-T 32280-2022 硅片翘曲度和弯曲度的测试 自动非接触扫描法.pdf
1
/
3
20
评价文档
赞助2.5元 点击下载(767.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。