(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210790862.3
(22)申请日 2022.07.05
(71)申请人 东北林业大 学
地址 150040 黑龙江省哈尔滨市香坊区和
兴路26号东北林业大 学
(72)发明人 景维鹏 陈广胜 李林辉 孙海龙
(74)专利代理 机构 四川省方圆智云知识产权代
理事务所(普通 合伙) 51368
专利代理师 王悦
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/35(2019.01)
G06F 16/29(2019.01)
G06F 40/194(2020.01)
G06F 40/295(2020.01)
(54)发明名称
基于深度学习的多源地理信息知识图谱自
动构建方法
(57)摘要
本发明公开了一种基于深度学习的多源地
理信息知识图谱自动构建方法, 包括: 设计地理
知识图谱、 地理实体、 地理语料库的存储 结构; 通
过网络百科全书和地理数据库构建地理知识图
谱的数据来源。 提取网络百科全书和/或地理数
据库的信息存储至地理实体结构。 如果网络百科
全书和地理数据库的实体结构同时描述, 但信息
记录内容不完全一致, 则认为地理数据库中的信
息比较准确, 采用地理数据库中的信息为准, 对
齐形成地理实体节点。 模型预测地理节点和候选
地理实体是否代表同一真实世界实体, 并为预测
提供置信度评分。 最后, 节点从正分类候选对中
选择具有最高置信度的地理实体建立正确身份
链接。 本发明的优点是: 提高信息的准确性, 节省
了人力成本 。
权利要求书2页 说明书7页 附图1页
CN 115129894 A
2022.09.30
CN 115129894 A
1.一种基于深度学习的多源地理信息知识图谱自动构建方法, 其特征在于, 包括以下
步骤:
步骤一, 设计地理知识图谱的存储结构、 地理实体的存储结构和地理语料库的存储结
构;
步骤二, 通过网络百科全书和地理数据库构建地理知识图谱的数据来源: 使用网络百
科书的数据对地理数据库进行补充可以完 善地理知识图谱的功能;
提取网络百 科全书和/或地理数据库的信息存 储至地理实体结构;
如果网络百科全书和地理数据库的实体结构同时描述, 但信息记录内容不完全一致,
则认为地理数据库中的信息比较准确, 采用地理数据库中的信息为准, 对齐形成地理实体
节点; 每个地理实体节点 n(n∈C), 一组候选地理实体
由地理知识图谱中包 含
的地理实体集Egeo 生成;
计算对齐后的地理节点 n和候选地理实体e的相似性, 其中n∈C, e∈E 0;
步骤三, 模型预测地理节点n和候选地理实体e是否代表同一真实世界实体, 并为预测
提供置信度评分, 评分规则如下公式所示; 最后, 节点n的在正分类候选对中选择具有最高
置信度的地理实体建立 正确身份链接;
E′={e∈Egeo∣ distance(n,e)≤thblock}
其中, distance(n, e)是计算节点 n和地理实体e之间地理距离的函数。
2.根据权利要求1所述的一种基于深度学习的多源地理信息知识图谱自动构建方法,
其特征在于: 步骤一中, 地理知识图谱的存储结构用图结构存储, 地理知识图谱的存储结构
表示为: 设E是一组实体, R是一组带标签的有向边, L是一组文字; 一个完整的知识图谱 KG是
一个三元组, 表示为
其中E中的实体代表真实世界的实体, 有向边
代表真实世界的实体关系和实体属性。
3.根据权利要求1所述的一种基于深度学习的多源地理信息知识图谱自动构建方法,
其特征在于: 步骤一中, 地理实体的存储结构表示为: 设E是地理实体之和, 一个地理实体e
(e∈E)被关系r(r∈R)修饰后才 会具有更多的地理意 义。
4.根据权利要求1所述的一种基于深度学习的多源地理信息知识图谱自动构建方法,
其特征在于: 步骤一中, 地理语料库的存储 结构表示为: 设地理语料库为C, 地理实体n∈C, n
可以被表 示为一个三元 组n=<i,l,T>, 其中i是该地理实体在语料库中的编号, 是与其它地
理实体的区分的关键依据; 由于每个实体都具有 经纬度, 所以使用l属性记录地理实体的空
间位置信息; T表 示的是多个成对键值对的集合, 该项用于描述该地理实体在现实空间中的
意义。
5.根据权利要求1所述的一种基于深度学习的多源地理信息知识图谱自动构建方法,
其特征在于: 步骤二中, 提取网络百科全书中的信息是通过实体名称打开百科全书 条目后,
提取信息框中的属 性名称和 值; 对于提取 的实体中存在的属 性值, 根据属 性名称构建对 象
特性;
提取地理数据库的信 息实体时, 空间数据库包括一个表列表, 每个表都包含许多行, 即
地理图形 特征, 实体名称和特性字段之间的对应关系用于形成对, 用于描述关系。
6.根据权利要求1所述的一种基于深度学习的多源地理信息知识图谱自动构建方法,权 利 要 求 书 1/2 页
2
CN 115129894 A
2其特征在于: 步骤二中, 对于地理数据库中不存在的属性关系, 使用网络百科全书中资料进
行补充。
7.根据权利要求1所述的一种基于深度学习的多源地理信息知识图谱自动构建方法,
其特征在于: 步骤三中, 所述模型预测这对数据是否代表同一真实世界实体, 提出了GKVLD
模块来推断地理语料库中节点的新潜在表示, 对节点n来说, GKVLD模块输入层通过
embedding技术对每个节点n的标识符n.i 转换成one‑hot向量;
GKVLD模块输出层使用softmax将潜在表示映射到编码的键和值, 优化目标的数学描述
形式如下 所示:
其中, logp(k∣ n.i)和l ogp(v∣ n.i)表示的是节点的键项k与值项v匹配的概 率。权 利 要 求 书 2/2 页
3
CN 115129894 A
3
专利 基于深度学习的多源地理信息知识图谱自动构建方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:58:33上传分享