专利 面向农作物品种管理的知识图谱构建方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 20221049610 3.6 (22)申请日 2022.05.09 (65)同一申请的已公布的文献号申请公布号 CN 114595344 A (43)申请公布日 2022.06.07 (73)专利权人北京市农林科学院信息技术研究中心地址 100097 北京市海淀区曙光花园中路 11号农科大厦A座1 107 (72)发明人潘守慧　王开义　王书锋　杨锋　韩焱云　张秋思　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师郭亮 (51)Int.Cl. G06F 16/36(2019.01)G06F 16/9532(2019.01) G06F 16/9535(2019.01) G06F 16/955(2019.01) G06Q 50/02(2012.01) (56)对比文件 CN 109669994 A,2019.04.23 CN 113127731 A,2021.07.16 CN 113569050 A,2021.10.2 9 CN 106874378 A,2017.0 6.20 CN 112527999 A,2021.0 3.19 US 2019108452 A1,2019.04.1 1 张博凯等.基于知识图谱的Andro id端农技智能问答系统研究. 《农业机械学报》 .2021,第52 卷审查员吴卿 (54)发明名称面向农作物品种管理的知识图谱构建方法及装置 (57)摘要本发明提供一种面向农作物品种管理的知识图谱构建方法及装置，该方法包括：根据农作物品种管理的主题词词典构建农作物品种管理的领域本体；根据领域本体，获取对应的农作物品种管理数据，并对品种管理数据进行知识抽取；对抽取出的知识采用三元组进行表示，并建立复合索引；通过知识推理对三元组进行扩充；根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面。该方法降低了知识图谱构建过程中的人工参与程度，提升了自动化构建水平，有助于解决农作物品种管理知识图谱构建过程中效率低、自动化程度低、可拓展性差等问题，提供了直观和便捷的知识组织、管理和展现方式。权利要求书4页说明书13页附图3页 CN 114595344 B 2022.07.19 CN 114595344 B 1.一种面向农作物品种管理的知识图谱构建方法，其特征在于，包括：根据农作物品种管理的主题词词典构建农作物品种管理的领域本体；根据所述领域本体，利用数据接口或主题爬虫从多个数据源获取对应的农作物品种管理数据，并采用基于规则的方法或/和基于机器学习的方法对所述品种管理数据进行知识抽取；对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引；通过知识推理对所述三元组进行扩充；根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的知识图谱数据展示界面；其中，若满足预设更新条件，则重复上述获取对应的农作物品种管理数据，直至为每一用户生成不同的知识图谱数据展示界面的过程。 2.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法，其特征在于，根据所述领域本体，利用主题爬虫从多个数据源获取对应的农作物品种管理数据，包括：确定初始统一资源定位符URL 地址列表；利用网页排名PageRank算法计算所述URL地址列表中所有URL的综合得分值，按综合得分值由大到小顺序对所述URL 地址列表中所有 URL进行排序；从所述URL地址列表中取出综合得分值最大的URL，并下载URL综合得分值最大的当前网页，并将当前网页URL移出所述URL地址列表，加入到已访问地址集合中；计算当前网页与所述领域本体中农作物品种管理主题词的相关性；若相关性值高于预设阈值，则将当前网页预处理后进行存储，以用于获取对应的农作物品种管理数据，否则将当前网页丢弃；利用正则表达式，抽取当前网页中的所有URL，得到当前网页URL集合，剔除当前网页 URL集合中在已访问地址集合中存在的URL后，将当前网页URL集合中所有的URL加入到所述 URL地址列表中；重复上述计算所述URL地址列表中所有URL的综合得分值，至将当前网页URL集合中所有的URL加入到URL 地址列表中的过程，直至URL 地址列表中的元素为空。 3.根据权利要求2所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述计算当前网页与所述领域本体中农作物品种管理主题词的相关性，包括：基于XPath或正则表达式对当前网页中的HTML标签进行解析，获取当前网页的文档对象DOM树或渲染树；根据当前网页结构树中的可见标签元素，对当前网页进行分块处理，得到当前网页的页面分块；从页面的底层最小分块开始，按照预设的合并层级和分块的标签类型，逐渐对页面分块进行合并，得到待识别分块；根据待识别分块的宽度、高度、字体格式、在网页中位置和规则模板，识别网页主体内容块；利用正则表达式，分别抽取所述主体内容块以及标题标签、关键词标签和描述标签中的文本，经文本预处理后，分别提取所述文本的特征词；基于文本向量模型，将当前网页表示为所述特征词构成的向量A，将农作物品种管理的权　利　要　求　书 1/4 页 2 CN 114595344 B 2主题词表示为向量T；计算向量A和向量T之间夹角的余弦值，得到当前网页与农作物品种管理主题词的相关性值。 4.根据权利要求3所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述计算向量A和向量T之间夹角的余弦值，包括结合每一特征词的权重计算向量A和向量T之间夹角的余弦值，所述权重的计算方法包括：；；其中，为第个网页文档中第个特征词的权重，为第个网页文档，为特征词在文档中的加权频率，为特征词的逆向文档频率，为归一化常量，为当前网页的逻辑分块数，为特征词在文档的第个文本块中实际出现的次数，为第个文本块的位置权重，为文档中第个文本块的文本长度，为网页集合中包含特征词的网页数，为网页的数量。 5.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述对所述品种管理数据进行知识抽取，包括：对于结构化数据，根据数据库的实体关系图，将数据表中字段之间的关系映射为三元组；对于半结构化数据，采用规则模板或基于包装器归纳法，进行实体抽取、属性抽取和关系抽取；对于非结构化数据，采用基于规则或/和基于机器学习的方法进行实体抽取、属性抽取、关系抽取和事件抽取。 6.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述对抽取出的知识采用三元组进行表示，并建立对应的六重复合索引，包括：将抽取的知识表示为三元组（S, P, O），其中S的取值为实体、事件或概念中的任何一个， P的取值为关系或属性， O的取值为实体、事件、概念或普通的值；对三元组中的三个元素进行排列，得到六种不同排列方式，分别为所述不同排列方式，建立B+树索引或哈希索引。 7.根据权利要求1所述的面向农作物品种管理的知识图谱构建方法，其特征在于，所述根据用户兴趣特征、用户输入行为特征和浏览行为特征，基于所述复合索引查找三元组数据集，为每一用户生成不同的数据展示界面，包括：权　利　要　求　书 2/4 页 3 CN 114595344 B 3

专利 面向农作物品种管理的知识图谱构建方法及装置

专利面向农作物品种管理的知识图谱构建方法及装置