说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 20221049610 3.6 (22)申请日 2022.05.09 (65)同一申请的已公布的文献号 申请公布号 CN 114595344 A (43)申请公布日 2022.06.07 (73)专利权人 北京市农林科 学院信息技 术研究 中心 地址 100097 北京市海淀区曙光 花园中路 11号农科大厦A座1 107 (72)发明人 潘守慧 王开义 王书锋 杨锋  韩焱云 张秋思  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 郭亮 (51)Int.Cl. G06F 16/36(2019.01)G06F 16/9532(2019.01) G06F 16/9535(2019.01) G06F 16/955(2019.01) G06Q 50/02(2012.01) (56)对比文件 CN 109669994 A,2019.04.23 CN 113127731 A,2021.07.16 CN 113569050 A,2021.10.2 9 CN 106874378 A,2017.0 6.20 CN 112527999 A,2021.0 3.19 US 2019108452 A1,2019.04.1 1 张博凯 等.基 于知识图谱的Andro id端农技 智能问答系统研究. 《农业机 械学报》 .2021,第52 卷 审查员 吴卿 (54)发明名称 面向农作物品种管理的知识图谱构建方法 及装置 (57)摘要 本发明提供一种面向农作物品种管理的知 识图谱构建方法及装置, 该方法包括: 根据农作 物品种管理的主题词词典构建农作物品种管理 的领域本体; 根据领域本体, 获取对应的农作物 品种管理数据, 并对品种管理数据进行知识抽 取; 对抽取出的知识采用三元组进行表示, 并建 立复合索引; 通过知识推理对三元组进行扩充; 根据用户兴趣 特征、 用户输入行为特征和浏览行 为特征, 基于复合索引查找三元组数据集, 为每 一用户生 成不同的知识图谱数据展示界面。 该方 法降低了知识图谱构建过程中的人工参与程度, 提升了自动化构建水平, 有助于解决农作物品种 管理知识图谱构建过程中效率低、 自动化程度 低、 可拓展性差等问题, 提供了直观和便捷的知 识组织、 管理和展现方式。 权利要求书4页 说明书13页 附图3页 CN 114595344 B 2022.07.19 CN 114595344 B 1.一种面向农作物品种管理的知识图谱构建方法, 其特 征在于, 包括: 根据农作物品种管理的主题词 词典构建农作物品种管理的领域本体; 根据所述领域本体, 利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管 理数据, 并采用基于规则的方法或/和基于机器学习的方法对所述品种 管理数据进行知识 抽取; 对抽取出的知识采用三元组进行表示, 并建立对应的六重复合索引; 通过知识推理对所述 三元组进行扩充; 根据用户兴趣特征、 用户输入行为特征和浏览行为特征, 基于所述复合索引查找三元 组数据集, 为每一用户生成不同的知识图谱数据展示界面; 其中, 若满足预设更新条件, 则重复上述获取对应的农作物品种管理数据, 直至为每一 用户生成不同的知识图谱数据展示界面的过程。 2.根据权利要求1所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 根据 所述领域本体, 利用主题爬虫从多个数据源获取对应的农作物品种管理数据, 包括: 确定初始统一资源定位符URL 地址列表; 利用网页 排名PageRank算法计算所述URL地址列表中所有URL的综合得分值, 按综合得 分值由大到小顺序对所述URL 地址列表中所有 URL进行排序; 从所述URL地址列表中取出综合得分值最大的URL, 并下载URL综合得分值最大的当前 网页, 并将当前网页URL移出 所述URL地址列表, 加入到已访问地址集 合中; 计算当前网页与所述领域本体中农作物品种管理主题词的相关性; 若相关性值高于预 设阈值, 则将当前网页预 处理后进 行存储, 以用于获取对应的农作物品种管理数据, 否则将 当前网页丢弃; 利用正则表达式, 抽取当前网页中的所有URL, 得到当前网页URL集合, 剔除当前网页 URL集合中在已访问地址集合中存在的URL后, 将当前网页URL集合中所有的URL加入到所述 URL地址列表中; 重复上述计算所述URL地址列表中所有URL的综合得分值, 至将当前网页URL集合中所 有的URL加入到URL 地址列表中的过程, 直至URL 地址列表中的元 素为空。 3.根据权利要求2所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 所述 计算当前网页与所述领域本体中农作物品种管理主题词的相关性, 包括: 基于XPath或正则表达式对当前网页中的HTML标签进行解析, 获取当前网页的文档对 象DOM树或渲染树; 根据当前网页结构树中的可见标签元素, 对当前网页进行分块处理, 得到当前网页的 页面分块; 从页面的底层最小分块开始, 按照预设的合并层级和分块的标签类型, 逐渐对页面分 块进行合并, 得到待识别分块; 根据待识别分块的宽度、 高度、 字体格式、 在网页中位置和规则模板, 识别网页主体内 容块; 利用正则表达式, 分别抽取所述主体内容块以及标题标签、 关键词标签和描述标签中 的文本, 经文本预处 理后, 分别提取 所述文本的特 征词; 基于文本向量模型, 将当前网页表示为所述特征词构成的向量A, 将农作物品种管理 的权 利 要 求 书 1/4 页 2 CN 114595344 B 2主题词表示 为向量T; 计算向量A和向量T之间夹角的余弦值, 得到当前网页与农作物品种管理主题词的相关 性值。 4.根据权利要求3所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 所述 计算向量A和向量T之间夹角的余弦值, 包括结合每一特征词的权重计算向量A和向量T之间 夹角的余弦值, 所述权 重的计算方法包括: ; ; 其中, 为第 个网页文档中第 个特征词的权重, 为第 个网页文档, 为特征词 在文档 中的加权频率, 为特征词 的逆向文档 频率, 为归一化常量, 为当前网页的逻辑分块数, 为特征词 在文档 的 第 个文本块中实际出现的次数, 为第 个文本块的位置权重, 为文档 中第 个文本块的文本 长度, 为网页集 合中包含特征词 的网页数, 为网页的数量。 5.根据权利要求1所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 所述 对所述品种管理数据进行知识抽取, 包括: 对于结构化数据, 根据数据库的实体关系图, 将数据表中字段之间的关系映射为三元 组; 对于半结构化数据, 采用规则模板或基于包装器归纳 法, 进行实体抽取、 属性抽取和关 系抽取; 对于非结构化数据, 采用基于规则或/和基于机器学习的方法进行实体抽取、 属性抽 取、 关系抽取和事 件抽取。 6.根据权利要求1所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 所述 对抽取出的知识采用三元组进行表示, 并建立对应的六重复合索引, 包括: 将抽取的知识表示为三元组 (S,  P, O) , 其中S的取值为实体、 事件或概念中的任何一 个, P的取值 为关系或属性, O的取值 为实体、 事 件、 概念或普通的值; 对三元组中的三个元素进行排列, 得到六种不同排列 方式, 分别为所述不同排列 方式, 建立B+树索引或哈希索引。 7.根据权利要求1所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 所述 根据用户兴趣特征、 用户输入行为特征和浏览行为特征, 基于所述复合索引查找三元组数 据集, 为每一用户生成不同的数据展示界面, 包括:权 利 要 求 书 2/4 页 3 CN 114595344 B 3

.PDF文档 专利 面向农作物品种管理的知识图谱构建方法及装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向农作物品种管理的知识图谱构建方法及装置 第 1 页 专利 面向农作物品种管理的知识图谱构建方法及装置 第 2 页 专利 面向农作物品种管理的知识图谱构建方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:01:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。