(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 20221087496 5.8
(22)申请日 2022.07.25
(65)同一申请的已公布的文献号
申请公布号 CN 114936296 A
(43)申请公布日 2022.08.23
(73)专利权人 达而观数据 (成 都) 有限公司
地址 610000 四川省成 都市天府新区湖畔
路北段366号1栋3楼1号
(72)发明人 王文广 陈运文 纪达麒
(74)专利代理 机构 上海智力专利商标事务所
(普通合伙) 31105
专利代理师 周涛
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/33(2019.01)G06F 16/31(2019.01)
G06N 3/06(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 113094449 A,2021.07.09
CN 111339313 A,2020.0 6.26
CN 114064931 A,202 2.02.18
CN 114625830 A,2022.06.14
审查员 李梦颖
(54)发明名称
超大规模知识图谱存储的索引方法、 系统及
计算机设备
(57)摘要
本发明涉及到一种超大规模知识图谱存储
的索引方法, 该方法具体包括有如下步骤: 将索
引的输入分为实体、 关系三元 组和属性三元组三
种类型; 使用BERT兼容模型对三种类型的输入分
别进行编码, 分别输出三类输入的向量表示; 多
层感知机根据接收的向量表示, 回归 出数据存储
的起始位置和物理存储的长度; 根据起始位置和
物理存储长度, 访问保持物理存储设备上的知识
图谱数据, 实现超大规模知识图谱存储的智能索
引; 还涉及到一种大规模知识图谱存储智能的索
引系统及计算机设备。 本发明的索引方法、 系统
及计算机设备适合于大规模语义化的知识图谱
的智能索引, 以提升检索的效率, 为基于知识图
谱的智能推理提供 更加便捷的服 务。
权利要求书2页 说明书7页 附图2页
CN 114936296 B
2022.11.08
CN 114936296 B
1.一种超大规模知识图谱存储的索引方法, 所述超大规模知识图谱是指知识图谱中含
有万亿条规模的三元组数量, 其特征在于, 该超大规模知识图谱存储在索引时基于深度学
习模型来实现哈希计算, 获得物理存储的起始位置和存储长度, 该方法具体包括有如下步
骤:
第一步, 将索引的输入分为实体、 关系三元组和属性三元组三种类型, 基于三种输入类
型设计智能哈希算法, 该智能哈希算法架构上包括有BERT兼容模型、 汇聚网络和多层感知
机;
第二步, 使用所述BERT兼容模型对三种类型的输入分别进行编码和学习, 并将学习得
到的向量发送至汇聚网络中;
第三步, 在所述的汇聚网络中, 对于实体, 将所有实体的邻接顶点和关联边进行汇聚,
输出对应实体的向量表示; 对于 关系三元组和属性三元组, 对三元组本身进行学习, 分别输
出对应关系三元组的向量表示和对应属性 三元组的向量表示;
第四步, 将所述汇聚网络获得的向量表示分别输入至所述多层感知机中, 回归出数据
存储的起始位置和物理存 储的长度;
第五步, 根据输出的起始位置和物理存储长度, 访 问保持物理存储设备上的知识图谱
数据, 实现超大规模知识图谱 存储的智能索引。
2.根据权利要求1所述的一种 超大规模知识图谱存储的索引方法, 其特征在于, 所述的
第一步中, 对于每次索引输入, 三种输入类型分别以
,
和
进行表示, 具体分别为:
若为实体, 输入为
,
和
为空;
若为关系三元组,
为头实体,
为关系,
为尾实体;
若为属性 三元组,
为实体,
为属性名,
为属性值。
3.根据权利要求1所述的一种 超大规模知识图谱存储的索引方法, 其特征在于, 所述的
第二步中, 所述BERT 兼容模型的输入若为实体, 则输 出
即对应实体的向量表示; 若输入 为
关系, 则输出
为对应关系的向量表示, 将输出的向量
作为下一个步骤汇聚网络的输入。
4.根据权利要求3所述的一种 超大规模知识图谱存储的索引方法, 其特征在于, 所述的
第二步中, 所述BERT兼容模型的编码过程如下:
S21.将实体或关系所对应的文本切分成词元序列, 若输入为中文按字切分, 如果输入
中包含有英文单词, 则直接使用空格进行切分;
S22.在词元序列中加入位置信息, 即每个词元在词元顺序中的序号, 若输入中还有上
下句编码, 则设定上 下句的输入都为0;
S23.对每一个输入, 通过嵌入的方式获得各自的向量表示, 将向量进行加和得到模型
的输入向量;
S24.模型对输入向量进行表示学习, 最后通过模型的
位置获取所学习出的向量,
记为
。
5.根据权利要求1所述的一种 超大规模知识图谱存储的索引方法, 其特征在于, 在所述
第三步中, 对于实体, 所述汇聚网络将所有邻接顶点和关联边的信息加以汇聚, 实现深层的
语义学习, 对于
,
是指所通过模型 所获得到的实体的向量表示:权 利 要 求 书 1/2 页
2
CN 114936296 B
2其中,
表示
的所有邻接顶点集合,
表示邻接顶点的个数,
表示与
邻接的顶点
,
表示
和
之间的关系;
最后输出
,
是对应实体在汇聚网络的输出中的向量表示。
6.根据权利要求1所述的一种 超大规模知识图谱存储的索引方法, 其特征在于, 在所述
第三步中, 对于三元组, 通过如下公式直接求 三元组各个向量均值,
其中:
对于关系三元组:
为头实体
的向量表示,
为关系
的向量表示,
为尾实体的向
量表示;
对于属性三元组:
为实体
的向量表示,
为属性名
的向量表示,
为属性值的向
量表示。
7.根据权利要求1所述的一种 超大规模知识图谱存储的索引方法, 其特征在于, 在所述
第四步中, 由所述汇聚网络得到的向量表示分别输入至位置多层感知机和长度多层感知机
中, 分别回归出 数据在物理存 储的起始位置和长度。
8.一种超大规模知识图谱存储的索引系统, 其特征在于, 所述超大规模知识图谱存储
在物理存储设备中, 该系统对输入的数据通过深度学习模型计算得到物理存储的起始位置
pos和数据物理存储的长度 len, 从而根据起始位置pos_start=pos和结束位置 pos_end=
pos+len来读取出所需的知识图谱, 该系统组成包括有BERT 兼容模型、 汇聚网络模块和多
层感知机, 其中,
所述的BERT 兼容模型, 对索引的输入进行编码, 分别获得输入 的向量表示, 并将向量
表示发送至汇 聚网络中, 每次索引输入为实体、 关系三元组和属 性三元组三种类型中的一
种;
所述汇聚网络模块, 对于实体, 汇聚网络将所有邻接顶点和关联边的信息加以汇聚, 从
而实现深层的语义学习, 输出实体的向量表示; 对于三元组, 求出三元组各个 向量的均值,
分别获得关系三元组的向量表示和 属性三元组的向量表示;
所述多层感知机, 将汇聚网络获得的向量表示输入至多层感知机中, 回归出数据存储
的起始位置和物理存储的长度, 该起始 位置和物理存储的长度作为访问保持物理存储设备
上的知识图谱数据的依据。
9.一种计算机设备, 其特征在于, 该计算机设备中设有智能索引系统, 该智能索引系统
执行权利要求1所述的方法, 对物理存 储设备中储 存的超大规模知识图谱实现智能索引。权 利 要 求 书 2/2 页
3
CN 114936296 B
3
专利 超大规模知识图谱存储的索引方法、系统及计算机设备
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:01:27上传分享