(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210680896.7
(22)申请日 2022.06.16
(71)申请人 华东师范大学
地址 200241 上海市闵行区东川路5 00号
(72)发明人 杨燕 张骏 贺樑
(74)专利代理 机构 上海蓝迪专利商标事务所
(普通合伙) 31215
专利代理师 徐筱梅 张翔
(51)Int.Cl.
G06F 40/35(2020.01)
G06F 16/36(2019.01)
G06N 3/08(2006.01)
(54)发明名称
用于提高基于知识的对话系统鲁棒性的数
据增强方法
(57)摘要
本发明公开了一种用于提高基于知识的对
话系统鲁棒性的数据增强方法, 该方法应用于基
于知识的对话系统的训练过程中, 对输入的知识
三元组进行扰动。 本发明有助于对话系统生成事
实正确的回复, 并有助于对话系统迁移到具有新
知识的场景。
权利要求书1页 说明书3页 附图2页
CN 114997184 A
2022.09.02
CN 114997184 A
1.一种用于提高基于知识的对话系统鲁棒 性的数据增强方法, 其特 征在于, 包括:
获取用户的至少一组对话数据;
所述对话数据包含对话历史和由该对话历史中包含的实体通过实体链接获取的知识
图谱; 对话数据用于基于知识的对话系统的训练; 在训练过程中, 输入的对话数据首先通过
实体扰动方法获取处理后的数据, 然后将处理后的数据用于训练基于知识的对话系统; 其
中:
所述实体 扰动方法, 包括以下步骤:
1) 获取一组用于训练的对话数据, 对知识图谱中的每个知识三元组以50%的概率随机
对其进行扰动, 其中知识三元组的形式为[头实体, 关系, 尾实体];
2) 针对被扰动的知识三元组, 获取其头实体与尾实体, 并将头实体和尾实体中的30%的
字替换为随机的其 他任意字;
3) 将对话历史中涉及的替换前的头实体或尾实体修改为替换后的对应的头实体或尾
实体; 修改后的知识图谱和对话历史为处 理后的数据用于对话系统的训练。权 利 要 求 书 1/1 页
2
CN 114997184 A
2用于提高 基于知识的对话系统鲁棒性的数据增强方 法
技术领域
[0001]本发明涉及基于知识的对话系统技术领域, 具体来说是通过数据增强方法帮助基
于知识的对话系统生成事实正确的回复, 并增强系统的鲁棒 性。
背景技术
[0002]过去大部分基于知识的对话系统都侧重于通过外部知识图谱或知识库构建基于
知识的对话系统, 以生成具有丰富信息的回复。 这些系统需要与用户进 行知识丰富的对话。
因此, 生成忠实于某些给定知识图谱或知识库及其上下文的事实正确的回复非常重要。 但
是这些系统经常会产生似是而非的回复。 例如, 一个看似正确的文本 “周某伦的星座是天蝎
座”与知识“(周某伦,星座,摩羯座) ”相矛盾。 现有的方法一般应用于生 成后的回复, 通过外
部知识修正生成后的文本来获取事实正确的回复。 然而, 并没有从训练阶段根本性的解决
其问题。
发明内容
[0003]本发明的目的是针对现有技术的不足而提供的一种用于提高基于知识的对话系
统鲁棒性的数据增强方法, 有助于对话系统生成事实正确的回复, 并有助于对话系统迁移
到具有新知识的场景。
[0004]实现本发明目的 的具体技 术方案是:
[0005]一种用于提高基于知识的对话系统鲁棒 性的数据增强方法, 特点是: 该 方法包括:
[0006]获取用户的至少一组对话数据;
[0007]该对话数据包含对话历史、 由该对话历史中包含的实体通过实体链接获取的知识
图谱。 对话数据用于基于知识的对话系统的训练; 在训练过程中, 输入的对话数据首先通过
实体扰动方法获取处理后的数据, 然后将处理后的数据用于训练基于知识的对话系统; 其
中:
[0008]所述的实体 扰动方法, 包括以下步骤:
[0009]1)获取一组用于训练的对话数据, 对知识图谱中的每个知识三元组以50%的概率
随机对其进行扰动, 其中知识三元组的形式为 “[头实体,关系, 尾实体] ”;
[0010]2)针对被扰动的知识三元组, 获取其头实体与尾实体, 并将头实体和尾实体中的
30%的字替换为随机的其 他任意字;
[0011]3)将对话历史中涉及的替换前的头实体或尾实体修改为替换后的相应的头实体
或尾实体; 修改后相关的知识图谱和对话历史用于对话系统的训练。
[0012]与现有技 术相比, 本发明有以下优点:
[0013]1、 易用性: 相比较于过去的方法, 该方法在对话系统训练阶段, 无需额外空间和时
间消耗, 并且能够轻松应用于任何给定知识图谱和对话历史输入的对话系统的训练。
[0014]2、 正确性: 该方法能够有效帮助基于知识的对话系统生成事实正确的回复, 提高
该系统的鲁棒 性。说 明 书 1/3 页
3
CN 114997184 A
3
专利 用于提高基于知识的对话系统鲁棒性的数据增强方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:00:29上传分享