说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210728824.5 (22)申请日 2022.06.24 (71)申请人 武汉大学 地址 430072 湖北省武汉市武昌区八一路 299号 申请人 湖北省自然资源厅信息中心 (72)发明人 李江 李锐 李强 郑丽娜  李芳芳 凌朝阳  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 张辰 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 16/387(2019.01)G06F 16/901(2019.01) G06F 16/909(2019.01) G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 矿区地理实体关联网络构建方法及设备 (57)摘要 本发明提供了一种矿区地理实体关联网络 构建方法及设备。 所述方法包 括: 步骤1至步骤3。 本发明从非结构化矿产资料文本中抽取出结构 化的实体属性信息, 为矿区地理实体 关联网络的 构建提供数据基础, 有效提高历史资料文本的挖 掘程度与利用价值; 形成矿区地理实体关联网 络, 能够有效支撑知识检索、 知识问答等下游应 用, 为提升矿产资源领域信息与知识的社会化服 务能力提供有效途径。 权利要求书2页 说明书12页 附图3页 CN 115129891 A 2022.09.30 CN 115129891 A 1.一种矿区地理实体关联网络构建方法, 其特征在于, 包括: 步骤1、 从地理实体的特征 表达与地理实体的关系表达两个层面建立面向矿产领域的矿区矿产资源地理实体表达框 架; 步骤2、 基于互联网获取矿产资源资料文本数据, 进 行数据预 处理和标注, 获得标注数据 集, 利用标注数据集, 对改进的BiLSTM ‑CRF模型进行训练, 得到矿区实体识别模型, 并基于 矿区实体识别模型对 未标注矿产资源资料文本中的实体要素进 行识别和抽取; 步骤3、 基于 Neo4j图形数据库, 依据步骤1中的地理实体的特征表达对步骤2中抽取得到的实体信息进 行存储, 依据步骤1中的地理实体的关系表达分别构建矿区地理实体之间的空间、 资源、 项 目和地质关联, 形成矿区地理实体关联网络 。 2.根据权利要求1所述的矿区地理实体关联网络构建方法, 其特征在于, 所述特征表达 包括: 语义特 征、 空间特 征、 资源特 征、 项目特 征、 地质特 征五个维度。 3.根据权利要求2所述的矿区地理实体关联网络构建方法, 其特征在于, 所述关联关系 包括: 空间关联、 资源关联、 项目关联、 地质关联四个方面。 4.根据权利要求3所述的矿区地理实体关联网络构建方法, 其特征在于, 步骤1中, 建立 面向矿产领域的矿区矿产资源地理实体表达框架, 具体包括: 建立地理实体特征表达体系, 定义语义特征由矿区名称OreName, 矿区标识码OreID, 矿区类型OreType和矿区类型码 OreTypeID组成; 定义空间特征由行政区划名称RegName、 空间等级SpaLev、 具体地域 SpeReg、 行政区划代码RegCode和为地理经纬度LonLat组成; 定义资源特征由矿种名称 MineSpeName, 矿种类型MineSpeType, 矿种储量规模MineSpeSca, 矿种品位MineSpeQua组 成; 定义项目特征由项目名称ProName、 形成单位FormU nit、 工作程度WorkDegree, 项目建设 的开始和结束时间StaEndTime组成; 定义地质特征由矿体特征OreBodyFea、 矿石特征 OreFea、 成因类型GenType、 其他地质特征OthFea组成; 建立地理实体 关系表达体系, 定义空 间关联关系依据拓扑层级关系和方位相对位置 建立, 关系类型包括隶属、 位于, 参考知识 为 行政区划层级集合; 定义资源关联关系依据矿产资源类型中的上下位关系建立, 关系类型 包括包含、 矿种属于, 参考知识为矿种类型划分集合; 定义项目关联关系依据项目形成单 位、 工作程度的一致性建立, 关系类型包括形成单位属于、 工作程度属于, 参考知识为工作 程度集合、 形成单位集合; 定义地质关联关系构成特点、 成分特点、 成因类型的一致性建立, 关系类型包括矿体数量 一致、 成分类型属于和成因属于 。 5.根据权利要求4所述的矿区地理实体关联网络构建方法, 其特征在于, 步骤2中, 利用 标注数据集, 对改进的BiLSTM ‑CRF模型进行训练, 得到矿区实体识别模型, 具体包括: 基于 爬虫技术获取互联网地质信息平台上 的公开数据, 定义无关文档的关键词列表, 进行数据 预处理, 删除与矿区矿产描述无关及不符合要求的数据; 选用部 分原始数据, 采用BME O的序 列标注方式对数据进行标注, 并对标注数据集的质量进行检查, 得到矿产资源领域的实体 标注数据集; 在BiLSTM ‑CRF模型的输入层 进行向量优化; 将标注 好的标注数据集按照6:2:2 的比例来进行划分, 分别作为训练集、 验证集和测试集, 保存训练和调整好的改进BiLSTM ‑ CRF模型, 得到矿区矿产实体识别模型。 6.根据权利要求5所述的矿区地理实体关联网络构建方法, 其特征在于, 所述在 BiLSTM‑CRF模型的输入层 进行向量优化, 包括: 模 型融合矿产资源领域专有词典, 使用分词 工具对矿区矿产资源文本语料进行分词, 对于矿区矿产资源文本语料, 词典中存在的词会 被完整划分出来, 不存在的词使用常规的分词工具进行划分, 划分后的词语利用word2vec权 利 要 求 书 1/2 页 2 CN 115129891 A 2进行词向量训练, 得到词语级别的向量序列, 将以前的字向量输入升级到词向量输入, 利用 更多的语义特 征并提高信息密度。 7.根据权利要求6所述的矿区地理实体关联网络构建方法, 其特征在于, 步骤3具体包 括: 选用Neo4j图数据库来进行存储矿区矿产知识, 利用Cypher图查询语句和python语言, 将步骤2中抽取得到的矿区地理实体的语义、 空间、 资源、 项目、 地质特征信息, 自动化导入 图数据库中进行存储; 利用Cypher图查询语句和python语 言, 依据步骤1 中的地理实体 关系 表达体系, 分别构建矿区地理实体的空间、 资源、 项目和地质关联, 具体实现方式为: 引入不 同层级的行政区划 集合建立空间关联; 引入矿区矿产资源概念层级集合建立资源关联; 通 过引入工作程度集合和形成单位取值集合建立项目关联; 通过引入地质特征取值集合建立 地质关联。 8.一种矿区地理实体关联网络构建装置, 其特征在于, 包括: 第一主模块, 用于实现步 骤1、 从地理实体的特征表达与地理实体的关系表达两个层面建立面向矿产领域的矿区矿 产资源地理实体表达框架; 第二主模块, 用于实现步骤2、 基于互联网获取矿产资源资料文 本数据, 进行数据预处理和标注, 获得标注数据集, 利用标注数据集, 对改进的BiLSTM ‑CRF 模型进行训练, 得到矿区实体识别模型, 并基于矿区实体识别模型对未标注矿产资源资料 文本中的实体要素进行识别和抽取; 第三主模块, 用于实现步骤3、 基于Neo4j图形数据库, 依据步骤1中的地理实体的特征表达对步骤2中抽取得到的实体信息进行存储, 依据步骤1 中的地理实体的关系表达 分别构建矿区地理实体之 间的空间、 资源、 项目和地质关联, 形成 矿区地理实体关联网络 。 9.一种电子设备, 其特 征在于, 包括: 至少一个处 理器、 至少一个存 储器和通信接口; 其中, 所述处理器、 存储器和通信接口相互间进行通信; 所述存储器存储有可被所述处理器执行的程序指令, 所述处理器调用所述程序指令, 以执行权利要求1至7任一项权利要求所述的方法。 10.一种非暂态计算机可读存储介质, 其特征在于, 所述非暂态计算机可读存储介质存 储计算机指令, 所述计算机指 令使所述计算机执行权利要求 1至7中任一项权利要求所述的 方法。权 利 要 求 书 2/2 页 3 CN 115129891 A 3

.PDF文档 专利 矿区地理实体关联网络构建方法及设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 矿区地理实体关联网络构建方法及设备 第 1 页 专利 矿区地理实体关联网络构建方法及设备 第 2 页 专利 矿区地理实体关联网络构建方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:00:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。