专利 知识问答方法、装置、计算机可读介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210761524.7 (22)申请日 2022.06.30 (71)申请人腾讯科技（深圳）有限公司地址 518000 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人林镇溪　张子恒　 (74)专利代理机构深圳市联鼎知识产权代理有限公司 4 4232 专利代理师陈涛 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 40/247(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称知识问答方法、装置、计算机可读介质及电子设备 (57)摘要本申请的实施例提供了一种知识问答方法、装置、计算机可读介质及电子设备，该方法包括：获取为知识图谱中的各种关系分别制定的问题模板；根据问题模板内占位符所指示的填充内容类型和内容填充位置分别向问题模板填充内容，得到问题；以各问题和每一问题对应的关系作为训练数据，根据训练数据训练得到实体关系识别模型，并基于实体关系识别模型识别出与待回答问题对应的目标关系；从知识图谱中确定出与待回答问题中实体匹配的目标实体；基于目标实体和目标关系生成待回答问题对应的问题答案。本申请实施例解决了模型的冷启动的问题，能够提高知识问答的性能和泛化性。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。权利要求书3页说明书18页附图11页 CN 115292457 A 2022.11.04 CN 115292457 A 1.一种知识问答方法，其特征在于，所述方法包括：获取为知识图谱中的各种关系分别制定的包含至少一个占位符的问题模板，所述占位符用于指示所述问题模板中内容填充位置和填充内容类型；针对每一问题模板，根据所述问题模板内占位符所指示的填充内容类型和内容填充位置分别向所述问题模板内占位符填充内容，得到至少一个问题；以各问题和每一问题对应的关系作为训练数据，根据所述训练数据训练得到实体关系识别模型，并基于所述实体关系识别模型识别出与待回答问题对应的目标关系；从所述知识图谱中确定出与所述待回答问题中实体匹配的目标实体；基于所述目标实体和所述目标关系生成所述待回答问题对应的问题答案。 2.根据权利要求1所述的知识问答方法，其特征在于，所述基于所述目标实体和所述目标关系生成所述待回答问题对应的问题答案，包括：基于所述目标实体和所述目标关系在所述知识图谱中查询出所述目标实体关联的关联实体；根据所述关联实体和所述目标关系生成所述待回答问题对应的问题答案。 3.根据权利要求2所述的知识问答方法，其特征在于，所述基于所述目标实体和所述目标关系在所述知识图谱中查询出所述目标实体关联的关联实体，包括：以所述目标实体作为中心节点，从所述知识图谱中抽取出包括至少一个与所述目标实体关联的关联实体的子图，其中，所述子图内的任意实体与所述中心节点的距离低于预定数目条边；基于所述目标实体和所述目标关系在所述子图中查询出所述目标实体关联的关联实体。 4.根据权利要求2所述的知识问答方法，其特征在于，所述根据所述关联实体和所述目标关系生成所述待回答问题对应的问题答案，包括：将所述关联实体填充至与所述目标关系对应的答案模板中，得到所述待回答问题对应的问题答案。 5.根据权利要求1所述的知识问答方法，其特征在于，所述以各问题和每一问题对应的关系作为训练数据，根据所述训练数据训练得到实体关系识别模型，包括：针对每一问题，通过多种数据增强方式对所述问题分别进行数据增强，得到所述问题对应多个增强后问题，并将所述问题对应的关系作为所述增强后问题对应的关系；将各问题、各问题对应的关系、各增强后问题以及各增强后问题对应的关系作为训练数据，根据所述训练数据训练得到实体关系识别模型。 6.根据权利要求5所述的知识问答方法，其特征在于，所述多种数据增强方式包括下列至少两种：将问题中的词替换为同义词；向问题中随机插入问题中词的同义词；随机删除问题中的词；随机选取问题中的两个词进行位置交换；先通过翻译工具将原始语言的问题翻译为其他语言的问题，再通过翻译工具将其他语言的问题翻译为原始语言。 7.根据权利要求1所述的知识问答方法，其特征在于，所述从所述知识图谱中确定出与所述待回答问题中实体匹配的目标实体，包括：根据所述知识图谱中实体的部分字符串与所述待回答问题中实体的匹配情况，在所述知识图谱中确定出候选实体；或者权　利　要　求　书 1/3 页 2 CN 115292457 A 2根据所述知识图谱中实体与所述待回答问题中实体的部分字符串匹配情况，在所述知识图谱中确定出候选实体；确定每个候选实体与目标实体的匹配度，并根据各候选实体对应的匹配度在各候选实体中确定出目标实体。 8.根据权利要求7所述的知识问答方法，其特征在于，所述确定每个候选实体与目标实体的匹配度，包括：基于编辑距离确定每个候选实体与目标实体的字面匹配度；通过预训练模型分别提取出候选实体的特征表示和目标实体的特征表示；针对每一候选实体，确定所述候选实体的特征表示和目标实体的特征表示之间的相关度，作为所述候选实体与目标实体的语义匹配度；针对每一候选实体，根据所述候选实体与目标实体的字面匹配度和语义匹配度，确定出所述候选实体与目标实体的匹配度。 9.根据权利要求1 ‑8任意一项所述的知识问答方法，其特征在于，在从所述知识图谱中确定出与所述待回答问题中实体匹配的目标实体之前，所述方法还包括：获取包括多个实体的实体字典；将所述实体字典中的实体与包括多个文本的语料集进行匹配，得到所述语料集中与所述实体匹配的文本；以各实体和与各实体匹配的文本作为训练集，根据所述训练集对预训练模型进行训练，得到实体识别模型；基于所述实体字典确定所述待回答问题中的词与多个实体分别对应的第一匹配度，并基于所述实体识别模型确定所述待回答问题与多个实体分别对应的第二匹配度；根据各实体对应的第一匹配度和第二匹配度在各实体中确定出所述待回答问题中的实体。 10.一种知识问答装置，其特征在于，所述装置包括：获取单元，用于获取为知识图谱中的各种关系分别制定的包含至少一个占位符的问题模板，所述占位符用于指示所述问题模板中内容填充位置和填充内容类型；填充单元，用于针对每一问题模板，根据所述问题模板内占位符所指示的填充内容类型和内容填充位置分别向所述问题模板内占位符填充内容，得到至少一个问题；关系识别单元，用于以各问题和每一问题对应的关系作为训练数据，根据所述训练数据训练得到实体关系识别模型，并基于所述实体关系识别模型识别出与待回答问题对应的目标关系；确定单元，用于从所述知识图谱中确定出与所述待回答问题中实体匹配的目标实体；生成单元，用于基于所述目标实体和所述目标关系生成所述待回答问题对应的问题答案。 11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的知识问答方法。 12.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理权　利　要　求　书 2/3 页 3 CN 115292457 A 3

专利 知识问答方法、装置、计算机可读介质及电子设备

专利知识问答方法、装置、计算机可读介质及电子设备