专利 键值生成方法、知识图谱生成方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210754072.X (22)申请日 2022.06.28 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人王兆吉　黄昉　史亚冰　蒋烨　柴春光　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师杨静 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 40/205(2020.01) G06F 40/295(2020.01) (54)发明名称键值生成方法、知识图谱生成方法、装置、设备及介质 (57)摘要本公开提供了一种键值生成方法、知识图谱生成方法、装置、电子设备及存储介质，涉及计算机数据处理技术领域及人工智能技术领域，尤其涉及人工智能、自然语言处理和深度学习技术。具体实现方案为：根据待处理文档，得到目标文档；对目标文档进行解析，得到目标键值对；根据目标键值对，确定目标键值对类型；以及根据目标键值对和目标键值对类型，得到针对待处理文档的键值结果。权利要求书4页说明书26页附图10页 CN 115146070 A 2022.10.04 CN 115146070 A 1.一种键值生成方法，包括：根据待处理文档，得到目标文档；对所述目标文档进行解析，得到目标键值对；根据所述目标键值对，确定目标键值对类型；以及根据所述目标键值对和所述目标键值对类型，得到针对所述待处理文档的键值结果。 2.根据权利要求1所述的方法，其中，所述根据所述目标键值对，确定目标键值对类型，包括：对所述目标键值对进行特征提取，得到目标键值对特征向量；以及根据所述目标键值对特征向量，确定所述目标键值对类型。 3.根据权利要求2所述的方法，其中，所述对所述目标键值对进行特征提取，得到目标键值对特征向量，包括：对所述目标键值对中的对象进行对象编码，得到目标对象特征向量；对所述目标键值对进行位置编码，得到目标位置特征向量；对所述目标键值对进行片段编码，得到目标片段特征向量；以及根据所述目标对象特征向量、所述目标位置特征向量和所述目标片段特征向量，得到所述目标键值对特征向量。 4.根据权利要求2或3所述的方法，其中，所述根据所述目标键值对特征向量，确定所述目标键值对类型，包括：根据所述目标键值对，创建预期特征数据；对所述预期特征数据进行特征提取，得到预期特征向量；以及根据所述目标键值对特征向量和所述预期特征向量，确定所述目标键值对类型。 5.根据权利要求4所述的方法，其中，所述对所述预期特征数据进行特征提取，得到预期特征向量，包括：对所述预期特征数据进行稠密编码，得到稠密特征向量；以及对所述稠密特征向量进行因子分解，得到所述预期特征向量。 6.根据权利要求2所述的方法，其中，所述根据所述目标键值对，确定目标键值对类型，包括：利用分类模型处理所述目标键值对，得到所述目标键值对类型，其中，所述分类模型是利用样本文档数据训练深度学习模型得到的。 7.根据权利要求6所述的方法，其中，所述深度学习模型包括第一语言模块；所述分类模型是基于第一损失函数，根据第一样本分类结果和样本标签值训练所述第一语言模块得到的；所述第一样本分类结果是利用所述第一语言模块处理所述样本文档数据得到的。 8.根据权利要求6所述的方法，其中，所述深度学习模型包括第二语言模块和第一特征融合模块；所述分类模型是基于第二损失函数，根据第二样本分类结果和样本标签值训练所述第二语言模块和所述第一特征融合模块得到的；所述第二样本分类结果是根据第一预期样本特征向量和第一样本特征向量得到的；所述第一预期样本特征向量是利用所述第一特征融合模块处理所述预期样本特征数权　利　要　求　书 1/4 页 2 CN 115146070 A 2据得到的，所述预期样本特征数据是根据所述样本文档数据创建的，所述预期样本特征数据包括对象粒度、词性粒度和词类粒度中的至少之一粒度的特征数据；所述第一样本特征向量是利用所述第二语言模块处理所述样本文档数据得到的。 9.根据权利要求6所述的方法，其中，所述深度学习模型包括第三语言模块和第一预训练模块；所述分类模型是基于第三损失函数，根据第三样本分类结果和第四样本分类结果训练所述第三语言模块得到的；所述第三样本分类结果是利用所述第三语言模块处理所述样本文档数据得到的；所述第四样本分类结果是利用所述第一预训练模块处理所述样本文档数据得到的。 10.根据权利要求6所述的方法，其中，所述深度学习模型包括第四语言模块、第二特征融合模块和第二预训练模块；所述分类模型包括在根据输出值调整所述第四语言模块和所述第二特征融合模块的模型参数，直至满足预定结束条件的情况下得到的第四语言模块和第二特征融合模块；所述输出值是根据第一输出值和第二输出值确定的；所述第一输出值是基于第四损失函数，根据第五样本分类结果和样本标签值得到的；所述第二输出值是基于第五损失函数，根据第六样本分类结果和第七样本分类结果得到的；所述第五样本分类结果是根据第二预期样本特征向量和第二样本特征向量得到的；所述第二预期样本特征向量是利用所述第二特征融合模块处理所述预期样本特征数据得到的，所述预期样本特征数据是根据所述样本文档数据创建的；所述第二样本特征向量是利用所述第四语言模块处理所述样本文档数据得到的；所述第六样本分类结果是利用所述第四语言模块处理所述样本文档数据得到的；所述第七样本分类结果是利用所述第二预训练模块处理所述样本文档数据得到的。 11.根据权利要求6～10中任一项所述的方法，其中，所述样本文档数据包括以下至少之一：样本键值对和非样本键值对，所述样本键值对包括以下至少之一：由属性和属性值形成的样本键值对和由名词和名称解释形成的样本键值对。 12.根据权利要求1～11中任一项所述的方法，其中，所述对所述目标文档进行解析，得到目标键值对，包括：对所述目标文档进行语句划分，得到目标语句；以及对所述目标语句进行键值对划分，得到所述目标键值对。 13.根据权利要求12所述的方法，其中，所述对所述目标文档进行语句划分，得到目标语句，包括：基于语句划分分隔符对所述目标文档进行语句划分，得到所述目标语句。 14.根据权利要求13所述的方法，其中，所述语句划分分隔符包括第一级语句划分分隔符和第二级语句划分分隔符；其中，所述基于语句划分分隔符对所述目标文档进行语句划分，得到所述目标语句，包括：基于所述第一级语句划分分隔符对所述目标文档进行语句划分，得到中间语句；以及在确定所述中间语句中存在所述第二级语句划分分隔符的情况下，对所述中间语句进权　利　要　求　书 2/4 页 3 CN 115146070 A 3

专利 键值生成方法、知识图谱生成方法、装置、设备及介质

专利键值生成方法、知识图谱生成方法、装置、设备及介质