专利 基于强化学习和知识图谱的多轮对话方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210587663.2 (22)申请日 2022.05.27 (71)申请人青岛文达通科技股份有限公司地址 266500 山东省青岛市黄岛区望江路 500号 (72)发明人管洪清　徐亮　王伟　张元杰　张大千　尹广楹　孙浩云　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 专利代理师董雪 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06N 5/02(2006.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于强化学习和知识图谱的多轮对话方法及系统 (57)摘要本公开属于计算机技术领域，提供了一种基于强化学习和知识图谱的多轮对话方法及系统，包括以下步骤：获取用户的输入信息；对所获取的信息进行编码，得到输入信息编码，筛选信息关键词；基于所筛选的关键词和知识图谱，得到相关信息节点；通过强化学习筛选所得到的相关信息节点，得到节点信息编码；根据输入信息编码和节点信息编码，生成对话。权利要求书1页说明书5页附图3页 CN 115017281 A 2022.09.06 CN 115017281 A 1.一种基于强化学习和知识图谱的多轮对话方法，其特征在于，包括以下步骤：获取用户的输入信息；对所获取的信息进行编码，得到输入信息编码，筛选信息关键词；基于所筛选的关键词和知识图谱，得到相关信息节点；通过强化学习筛选所得到的相关信息节点，得到节点信息编码；根据输入信息编码和节点信息编码，生成对话。 2.如权利要求1中所述的一种基于强化学习和知识图谱的多轮对话方法，其特征在于，基于Embedding layer编码规则，将所获取用户的输入信息切分为若干个字和词语的组合，将字或词语替换成词表中的索引，得到输入信息编码。 3.如权利要求2中所述的一种基于强化学习和知识图谱的多轮对话方法，其特征在于，将所得到的输入信息编码依次经过3个Enco der layer层和1个output层，所输出的内容即为信息的关键词。 4.如权利要求1中所述的一种基于强化学习和知识图谱的多轮对话方法，其特征在于，所述知识图谱的构建流程包括知识建模、知识存储、知识抽取、知识融合、知识计算和知识应用。 5.如权利要求1中所述的一种基于强化学习和知识图谱的多轮对话方法，其特征在于，基于关键词在知识图谱中查询，得到含冗余的查询结果，通过强化学习筛选与所输入信息相关的查询结果，去掉冗余项，得到候选关键词列表，所得到的相关信息节点。 6.如权利要求5 中所述的一种基于强化学习和知识图谱的多轮对话方法，其特征在于，根据输入信息编码和节点信息编码，生成对话对候选的关键词进行编码，将编码后的关键词将经过6层的decoderlayer的输出后再输入到每一层的decoder layer中，通过最后 decoder layer层中输出所输入信息的答案，生成对话。 7.如权利要求1中所述的一种基于强化学习和知识图谱的多轮对话方法，其特征在于，根据问句和关键词，筛选出符合问题的关键词，根据多轮对话系统生成结果，动态调整筛选关键词算法。 8.一种基于强化学习和知识图谱的多轮对话系统，其特征在于，包括：获取模块，被配置为获取用户的输入信息；筛选模块，被配置为对所获取的信息进行编码，得到输入信息编码筛选信息关键词；节点模块，被配置为基于所筛选的关键词和知识图谱，得到相关信息节点；通过强化学习筛选所得到的相关信息节点，得到节点信息编码；对话模块，被配置为根据输入信息编码和节点信息编码，生成对话。 9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1 ‑7中任一项所述的基于强化学习和知识图谱的多轮对话方法法中的步骤。 10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1‑7中任一项所述的基于强化学习和知识图谱的多轮对话方法中的步骤。权　利　要　求　书 1/1 页 2 CN 115017281 A 2基于强化学习和知识图谱的多轮对话方法及系统技术领域 [0001]本公开属于计算机技术领域，具体涉及一种基于强化学习和知识图谱的多轮对话方法及系统。背景技术 [0002]本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。 [0003]强化学习(Reinforcement Learning,简称RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。 [0004]知识图谱是在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 [0005]多轮对话是一种在人机对话中，初步明确用户意图之后，获取必要信息以最终得到明确用户指令的方式；多轮对话与一件事情的处理相对应。 [0006]现有多轮对话技术的缺点在于无法结合上下文信息和现实生活中的常识信息，生成的对话只是具备与语料库中文本的具备相似特征的语句，无法和上下文结合起来，而且每单个对话之间的连贯性较差，不具备时序特征。发明内容 [0007]为了解决上述问题，本公开提出了一种基于强化学习和知识图谱的多轮对话方法及系统，将对话的前文信息依次输入，然后根据自注意力机制获取对话中的重点信息，使得生成的对话具备上下文连贯，语义自洽的特点，利用知识图谱来获取对话中的背景知识，并基于强化学习对背景知识进行筛选，使得在生成的对话具备语言结构丰富，背景知识多样的特点。 [0008]根据一些实施例，本公开的第一方案提供了一种基于强化学习和知识图谱的多轮对话方法，采用如下技术方案： [0009]一种基于强化学习和知识图谱的多轮对话方法，包括以下步骤： [0010]获取用户的输入信息； [0011]对所获取的信息进行编码，得到输入信息编码，筛选信息关键词； [0012]基于所筛选的关键词和知识图谱，得到相关信息节点； [0013]通过强化学习筛选所得到的相关信息节点，得到节点信息编码； [0014]根据输入信息编码和节点信息编码，生成对话。 [0015]作为进一步的技术限定，基于Embedding layer编码规则，将所获取用户的输入信息切分为若干个字和词语的组合，将字或词语替换成词表中的索引，得到输入信息编码。 [0016]进一步的，将所得到的输入信息编码依次经过3个Encoder layer层和1个output说　明　书 1/5 页 3 CN 115017281 A 3

专利 基于强化学习和知识图谱的多轮对话方法及系统

专利基于强化学习和知识图谱的多轮对话方法及系统