专利 超大规模知识图谱存储的索引方法、系统及计算机设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 20221087496 5.8 (22)申请日 2022.07.25 (65)同一申请的已公布的文献号申请公布号 CN 114936296 A (43)申请公布日 2022.08.23 (73)专利权人达而观数据（成都）有限公司地址 610000 四川省成都市天府新区湖畔路北段366号1栋3楼1号 (72)发明人王文广　陈运文　纪达麒　 (74)专利代理机构上海智力专利商标事务所 (普通合伙) 31105 专利代理师周涛 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01)G06F 16/31(2019.01) G06N 3/06(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113094449 A,2021.07.09 CN 111339313 A,2020.0 6.26 CN 114064931 A,202 2.02.18 CN 114625830 A,2022.06.14 审查员李梦颖 (54)发明名称超大规模知识图谱存储的索引方法、系统及计算机设备 (57)摘要本发明涉及到一种超大规模知识图谱存储的索引方法，该方法具体包括有如下步骤：将索引的输入分为实体、关系三元组和属性三元组三种类型；使用BERT兼容模型对三种类型的输入分别进行编码，分别输出三类输入的向量表示；多层感知机根据接收的向量表示，回归出数据存储的起始位置和物理存储的长度；根据起始位置和物理存储长度，访问保持物理存储设备上的知识图谱数据，实现超大规模知识图谱存储的智能索引；还涉及到一种大规模知识图谱存储智能的索引系统及计算机设备。本发明的索引方法、系统及计算机设备适合于大规模语义化的知识图谱的智能索引，以提升检索的效率，为基于知识图谱的智能推理提供更加便捷的服务。权利要求书2页说明书7页附图2页 CN 114936296 B 2022.11.08 CN 114936296 B 1.一种超大规模知识图谱存储的索引方法，所述超大规模知识图谱是指知识图谱中含有万亿条规模的三元组数量，其特征在于，该超大规模知识图谱存储在索引时基于深度学习模型来实现哈希计算，获得物理存储的起始位置和存储长度，该方法具体包括有如下步骤：第一步，将索引的输入分为实体、关系三元组和属性三元组三种类型，基于三种输入类型设计智能哈希算法，该智能哈希算法架构上包括有BERT兼容模型、汇聚网络和多层感知机；第二步，使用所述BERT兼容模型对三种类型的输入分别进行编码和学习，并将学习得到的向量发送至汇聚网络中；第三步，在所述的汇聚网络中，对于实体，将所有实体的邻接顶点和关联边进行汇聚，输出对应实体的向量表示；对于关系三元组和属性三元组，对三元组本身进行学习，分别输出对应关系三元组的向量表示和对应属性三元组的向量表示；第四步，将所述汇聚网络获得的向量表示分别输入至所述多层感知机中，回归出数据存储的起始位置和物理存储的长度；第五步，根据输出的起始位置和物理存储长度，访问保持物理存储设备上的知识图谱数据，实现超大规模知识图谱存储的智能索引。 2.根据权利要求1所述的一种超大规模知识图谱存储的索引方法，其特征在于，所述的第一步中，对于每次索引输入，三种输入类型分别以，和进行表示，具体分别为：若为实体，输入为，和为空；若为关系三元组，为头实体，为关系，为尾实体；若为属性三元组，为实体，为属性名，为属性值。 3.根据权利要求1所述的一种超大规模知识图谱存储的索引方法，其特征在于，所述的第二步中，所述BERT 兼容模型的输入若为实体，则输出即对应实体的向量表示；若输入为关系，则输出为对应关系的向量表示，将输出的向量作为下一个步骤汇聚网络的输入。 4.根据权利要求3所述的一种超大规模知识图谱存储的索引方法，其特征在于，所述的第二步中，所述BERT兼容模型的编码过程如下： S21.将实体或关系所对应的文本切分成词元序列，若输入为中文按字切分，如果输入中包含有英文单词，则直接使用空格进行切分； S22.在词元序列中加入位置信息，即每个词元在词元顺序中的序号，若输入中还有上下句编码，则设定上下句的输入都为0； S23.对每一个输入，通过嵌入的方式获得各自的向量表示，将向量进行加和得到模型的输入向量； S24.模型对输入向量进行表示学习，最后通过模型的位置获取所学习出的向量，记为。 5.根据权利要求1所述的一种超大规模知识图谱存储的索引方法，其特征在于，在所述第三步中，对于实体，所述汇聚网络将所有邻接顶点和关联边的信息加以汇聚，实现深层的语义学习，对于，是指所通过模型所获得到的实体的向量表示：权　利　要　求　书 1/2 页 2 CN 114936296 B 2其中，表示的所有邻接顶点集合，表示邻接顶点的个数，表示与邻接的顶点，表示和之间的关系；最后输出，是对应实体在汇聚网络的输出中的向量表示。 6.根据权利要求1所述的一种超大规模知识图谱存储的索引方法，其特征在于，在所述第三步中，对于三元组，通过如下公式直接求三元组各个向量均值，其中：对于关系三元组：为头实体的向量表示，为关系的向量表示，为尾实体的向量表示；对于属性三元组：为实体的向量表示，为属性名的向量表示，为属性值的向量表示。 7.根据权利要求1所述的一种超大规模知识图谱存储的索引方法，其特征在于，在所述第四步中，由所述汇聚网络得到的向量表示分别输入至位置多层感知机和长度多层感知机中，分别回归出数据在物理存储的起始位置和长度。 8.一种超大规模知识图谱存储的索引系统，其特征在于，所述超大规模知识图谱存储在物理存储设备中，该系统对输入的数据通过深度学习模型计算得到物理存储的起始位置 pos和数据物理存储的长度 len，从而根据起始位置pos_start=pos和结束位置 pos_end= pos+len来读取出所需的知识图谱，该系统组成包括有BERT 兼容模型、汇聚网络模块和多层感知机，其中，所述的BERT 兼容模型，对索引的输入进行编码，分别获得输入的向量表示，并将向量表示发送至汇聚网络中，每次索引输入为实体、关系三元组和属性三元组三种类型中的一种；所述汇聚网络模块，对于实体，汇聚网络将所有邻接顶点和关联边的信息加以汇聚，从而实现深层的语义学习，输出实体的向量表示；对于三元组，求出三元组各个向量的均值，分别获得关系三元组的向量表示和属性三元组的向量表示；所述多层感知机，将汇聚网络获得的向量表示输入至多层感知机中，回归出数据存储的起始位置和物理存储的长度，该起始位置和物理存储的长度作为访问保持物理存储设备上的知识图谱数据的依据。 9.一种计算机设备，其特征在于，该计算机设备中设有智能索引系统，该智能索引系统执行权利要求1所述的方法，对物理存储设备中储存的超大规模知识图谱实现智能索引。权　利　要　求　书 2/2 页 3 CN 114936296 B 3

专利 超大规模知识图谱存储的索引方法、系统及计算机设备

专利超大规模知识图谱存储的索引方法、系统及计算机设备