(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210587663.2
(22)申请日 2022.05.27
(71)申请人 青岛文达通科技股份有限公司
地址 266500 山东省青岛市黄岛区望江路
500号
(72)发明人 管洪清 徐亮 王伟 张元杰
张大千 尹广楹 孙浩云
(74)专利代理 机构 济南圣达知识产权代理有限
公司 372 21
专利代理师 董雪
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/36(2019.01)
G06N 5/02(2006.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于强化学习和知识图谱的多轮对话方法
及系统
(57)摘要
本公开属于计算机技术领域, 提供了一种基
于强化学习和知识图谱的多轮对话方法及系统,
包括以下步骤: 获取用户的输入信息; 对所获取
的信息进行编码, 得到输入信息编码, 筛选信息
关键词; 基于所筛选的关键词和知识图谱, 得到
相关信息节 点; 通过强化学习筛选所得到的相关
信息节点, 得到节点信息编码; 根据输入信息编
码和节点信息编码, 生成对话。
权利要求书1页 说明书5页 附图3页
CN 115017281 A
2022.09.06
CN 115017281 A
1.一种基于强化学习和知识图谱的多轮对话方法, 其特 征在于, 包括以下步骤:
获取用户的输入信息;
对所获取的信息进行编码, 得到 输入信息编码, 筛 选信息关键词;
基于所筛 选的关键词和知识图谱, 得到相关信息节点;
通过强化学习筛 选所得到的相关信息节点, 得到节点信息编码;
根据输入信息编码和节点信息编码, 生成对话。
2.如权利要求1中所述的一种基于强化学习和知识图谱的多轮对话方法, 其特征在于,
基于Embedding layer编码规则, 将所获取用户的输入信息切分为若干个字和词语的组合,
将字或词语替换成词表中的索引, 得到 输入信息编码。
3.如权利要求2中所述的一种基于强化学习和知识图谱的多轮对话方法, 其特征在于,
将所得到的输入信息编码依次经过3个Enco der layer层和1个output层, 所输出的内容即
为信息的关键词。
4.如权利要求1中所述的一种基于强化学习和知识图谱的多轮对话方法, 其特征在于,
所述知识图谱的构建流程包括知识建模、 知识存储、 知识抽取、 知识融合、 知识计算和知识
应用。
5.如权利要求1中所述的一种基于强化学习和知识图谱的多轮对话方法, 其特征在于,
基于关键词在知识图谱中查询, 得到含冗余的查询结果, 通过强化学习筛选与所输入信息
相关的查询结果, 去掉冗余项, 得到候选关键词列表, 所 得到的相关信息节点。
6.如权利要求5 中所述的一种基于强化学习和知识图谱的多轮对话方法, 其特征在于,
根据输入信息编码和节点信息编码, 生成对话对候选的关键词进行编码, 将编码后的关键
词将经过6层的decoderlayer的输出后再输入到每一层的decoder layer中, 通过最后
decoder layer层中输出 所输入信息的答案, 生成对话。
7.如权利要求1中所述的一种基于强化学习和知识图谱的多轮对话方法, 其特征在于,
根据问句和关键词, 筛选出符合问题的关键词, 根据多轮对话系统生 成结果, 动态调整筛选
关键词算法。
8.一种基于强化学习和知识图谱的多轮对话系统, 其特 征在于, 包括:
获取模块, 被 配置为获取用户的输入信息;
筛选模块, 被 配置为对所获取的信息进行编码, 得到 输入信息编码筛 选信息关键词;
节点模块, 被配置为基于所筛选的关键词和知识图谱, 得到相关信 息节点; 通过强化学
习筛选所得到的相关信息节点, 得到节点信息编码;
对话模块, 被 配置为根据输入信息编码和节点信息编码, 生成对话。
9.一种计算机可读存储介质, 其上存储有程序, 其特征在于, 该程序被处理器执行时实
现如权利要求1 ‑7中任一项所述的基于强化学习和知识图谱的多轮对话方法 法中的步骤。
10.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的程
序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的基于强化
学习和知识图谱的多轮对话方法中的步骤。权 利 要 求 书 1/1 页
2
CN 115017281 A
2基于强化学习和知识图谱的多轮对话方 法及系统
技术领域
[0001]本公开属于计算机技术领域, 具体涉及一种基于强化学习和知识图谱的多轮对话
方法及系统。
背景技术
[0002]本部分的陈述仅仅是提供了与本公开相关的背景技术信息, 不必然构成在先技
术。
[0003]强化学习(Reinforcement Learning,简称RL), 又称再励学习、 评价学习或增强学
习, 是机器学习的范式和方法论之一, 用于描述和解决智能体(agent)在与环 境的交互过程
中通过学习策略以达成回报最大化或实现特定目标的问题。
[0004]知识图谱是在图书情报界称为知识域可视化或知识领域映射地图, 是显示知识发
展进程与结构关系的一系列各种不同的图形, 用可视化技术描述知识资源及其载体, 挖掘、
分析、 构建、 绘制和显示知识及它 们之间的相互联系。
[0005]多轮对话是一种在人机对话中, 初步明确用户意图之后, 获取必要信息以最终得
到明确用户指令的方式; 多轮对话与一件 事情的处 理相对应。
[0006]现有多轮对话技术的缺点在于无法结合上下文信息和现实生活中的常识信息, 生
成的对话只是具备与语料库中文本的具备相似特征 的语句, 无法和上下文结合起来, 而且
每单个对话之间的连贯 性较差, 不具 备时序特 征。
发明内容
[0007]为了解决上述问题, 本公开提出了一种基于强化学习和知识图谱的多轮对话方法
及系统, 将对话的前文信息依次输入, 然后根据自注意力机制获取对话中的重点信息, 使得
生成的对话具备上下文 连贯, 语义自洽的特点, 利用知识图谱来 获取对话中的背 景知识, 并
基于强化学习对背景知识进行筛选, 使得在生成的对话具备语言结构丰富, 背景知识多样
的特点。
[0008]根据一些实施例, 本公开的第一方案提供了一种基于强化学习和知识图谱的多轮
对话方法, 采用如下技 术方案:
[0009]一种基于强化学习和知识图谱的多轮对话方法, 包括以下步骤:
[0010]获取用户的输入信息;
[0011]对所获取的信息进行编码, 得到 输入信息编码, 筛 选信息关键词;
[0012]基于所筛 选的关键词和知识图谱, 得到相关信息节点;
[0013]通过强化学习筛 选所得到的相关信息节点, 得到节点信息编码;
[0014]根据输入信息编码和节点信息编码, 生成对话。
[0015]作为进一步的技术限定, 基于Embedding layer编码 规则, 将所获取用户的输入信
息切分为若干个字和词语的组合, 将字或词语替换成词表中的索引, 得到 输入信息编码。
[0016]进一步的, 将所得到的输入信息编码依次经过3个Encoder layer层和1个output说 明 书 1/5 页
3
CN 115017281 A
3
专利 基于强化学习和知识图谱的多轮对话方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:58:21上传分享