(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 20221049610 3.6
(22)申请日 2022.05.09
(65)同一申请的已公布的文献号
申请公布号 CN 114595344 A
(43)申请公布日 2022.06.07
(73)专利权人 北京市农林科 学院信息技 术研究
中心
地址 100097 北京市海淀区曙光 花园中路
11号农科大厦A座1 107
(72)发明人 潘守慧 王开义 王书锋 杨锋
韩焱云 张秋思
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 郭亮
(51)Int.Cl.
G06F 16/36(2019.01)G06F 16/9532(2019.01)
G06F 16/9535(2019.01)
G06F 16/955(2019.01)
G06Q 50/02(2012.01)
(56)对比文件
CN 109669994 A,2019.04.23
CN 113127731 A,2021.07.16
CN 113569050 A,2021.10.2 9
CN 106874378 A,2017.0 6.20
CN 112527999 A,2021.0 3.19
US 2019108452 A1,2019.04.1 1
张博凯 等.基 于知识图谱的Andro id端农技
智能问答系统研究. 《农业机 械学报》 .2021,第52
卷
审查员 吴卿
(54)发明名称
面向农作物品种管理的知识图谱构建方法
及装置
(57)摘要
本发明提供一种面向农作物品种管理的知
识图谱构建方法及装置, 该方法包括: 根据农作
物品种管理的主题词词典构建农作物品种管理
的领域本体; 根据领域本体, 获取对应的农作物
品种管理数据, 并对品种管理数据进行知识抽
取; 对抽取出的知识采用三元组进行表示, 并建
立复合索引; 通过知识推理对三元组进行扩充;
根据用户兴趣 特征、 用户输入行为特征和浏览行
为特征, 基于复合索引查找三元组数据集, 为每
一用户生 成不同的知识图谱数据展示界面。 该方
法降低了知识图谱构建过程中的人工参与程度,
提升了自动化构建水平, 有助于解决农作物品种
管理知识图谱构建过程中效率低、 自动化程度
低、 可拓展性差等问题, 提供了直观和便捷的知
识组织、 管理和展现方式。
权利要求书4页 说明书13页 附图3页
CN 114595344 B
2022.07.19
CN 114595344 B
1.一种面向农作物品种管理的知识图谱构建方法, 其特 征在于, 包括:
根据农作物品种管理的主题词 词典构建农作物品种管理的领域本体;
根据所述领域本体, 利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管
理数据, 并采用基于规则的方法或/和基于机器学习的方法对所述品种 管理数据进行知识
抽取;
对抽取出的知识采用三元组进行表示, 并建立对应的六重复合索引;
通过知识推理对所述 三元组进行扩充;
根据用户兴趣特征、 用户输入行为特征和浏览行为特征, 基于所述复合索引查找三元
组数据集, 为每一用户生成不同的知识图谱数据展示界面;
其中, 若满足预设更新条件, 则重复上述获取对应的农作物品种管理数据, 直至为每一
用户生成不同的知识图谱数据展示界面的过程。
2.根据权利要求1所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 根据
所述领域本体, 利用主题爬虫从多个数据源获取对应的农作物品种管理数据, 包括:
确定初始统一资源定位符URL 地址列表;
利用网页 排名PageRank算法计算所述URL地址列表中所有URL的综合得分值, 按综合得
分值由大到小顺序对所述URL 地址列表中所有 URL进行排序;
从所述URL地址列表中取出综合得分值最大的URL, 并下载URL综合得分值最大的当前
网页, 并将当前网页URL移出 所述URL地址列表, 加入到已访问地址集 合中;
计算当前网页与所述领域本体中农作物品种管理主题词的相关性; 若相关性值高于预
设阈值, 则将当前网页预 处理后进 行存储, 以用于获取对应的农作物品种管理数据, 否则将
当前网页丢弃;
利用正则表达式, 抽取当前网页中的所有URL, 得到当前网页URL集合, 剔除当前网页
URL集合中在已访问地址集合中存在的URL后, 将当前网页URL集合中所有的URL加入到所述
URL地址列表中;
重复上述计算所述URL地址列表中所有URL的综合得分值, 至将当前网页URL集合中所
有的URL加入到URL 地址列表中的过程, 直至URL 地址列表中的元 素为空。
3.根据权利要求2所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 所述
计算当前网页与所述领域本体中农作物品种管理主题词的相关性, 包括:
基于XPath或正则表达式对当前网页中的HTML标签进行解析, 获取当前网页的文档对
象DOM树或渲染树;
根据当前网页结构树中的可见标签元素, 对当前网页进行分块处理, 得到当前网页的
页面分块;
从页面的底层最小分块开始, 按照预设的合并层级和分块的标签类型, 逐渐对页面分
块进行合并, 得到待识别分块;
根据待识别分块的宽度、 高度、 字体格式、 在网页中位置和规则模板, 识别网页主体内
容块;
利用正则表达式, 分别抽取所述主体内容块以及标题标签、 关键词标签和描述标签中
的文本, 经文本预处 理后, 分别提取 所述文本的特 征词;
基于文本向量模型, 将当前网页表示为所述特征词构成的向量A, 将农作物品种管理 的权 利 要 求 书 1/4 页
2
CN 114595344 B
2主题词表示 为向量T;
计算向量A和向量T之间夹角的余弦值, 得到当前网页与农作物品种管理主题词的相关
性值。
4.根据权利要求3所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 所述
计算向量A和向量T之间夹角的余弦值, 包括结合每一特征词的权重计算向量A和向量T之间
夹角的余弦值, 所述权 重的计算方法包括:
;
;
其中,
为第
个网页文档中第
个特征词的权重,
为第
个网页文档,
为特征词
在文档
中的加权频率,
为特征词
的逆向文档
频率,
为归一化常量,
为当前网页的逻辑分块数,
为特征词
在文档
的
第
个文本块中实际出现的次数,
为第
个文本块的位置权重,
为文档
中第
个文本块的文本 长度,
为网页集 合中包含特征词
的网页数,
为网页的数量。
5.根据权利要求1所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 所述
对所述品种管理数据进行知识抽取, 包括:
对于结构化数据, 根据数据库的实体关系图, 将数据表中字段之间的关系映射为三元
组;
对于半结构化数据, 采用规则模板或基于包装器归纳 法, 进行实体抽取、 属性抽取和关
系抽取;
对于非结构化数据, 采用基于规则或/和基于机器学习的方法进行实体抽取、 属性抽
取、 关系抽取和事 件抽取。
6.根据权利要求1所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 所述
对抽取出的知识采用三元组进行表示, 并建立对应的六重复合索引, 包括:
将抽取的知识表示为三元组 (S, P, O) , 其中S的取值为实体、 事件或概念中的任何一
个, P的取值 为关系或属性, O的取值 为实体、 事 件、 概念或普通的值;
对三元组中的三个元素进行排列, 得到六种不同排列 方式, 分别为所述不同排列 方式,
建立B+树索引或哈希索引。
7.根据权利要求1所述的面向农作物品种管理 的知识图谱构建方法, 其特征在于, 所述
根据用户兴趣特征、 用户输入行为特征和浏览行为特征, 基于所述复合索引查找三元组数
据集, 为每一用户生成不同的数据展示界面, 包括:权 利 要 求 书 2/4 页
3
CN 114595344 B
3
专利 面向农作物品种管理的知识图谱构建方法及装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:01:40上传分享