专利 用于提高基于知识的对话系统鲁棒性的数据增强方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210680896.7 (22)申请日 2022.06.16 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人杨燕　张骏　贺樑　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师徐筱梅　张翔 (51)Int.Cl. G06F 40/35(2020.01) G06F 16/36(2019.01) G06N 3/08(2006.01) (54)发明名称用于提高基于知识的对话系统鲁棒性的数据增强方法 (57)摘要本发明公开了一种用于提高基于知识的对话系统鲁棒性的数据增强方法，该方法应用于基于知识的对话系统的训练过程中，对输入的知识三元组进行扰动。本发明有助于对话系统生成事实正确的回复，并有助于对话系统迁移到具有新知识的场景。权利要求书1页说明书3页附图2页 CN 114997184 A 2022.09.02 CN 114997184 A 1.一种用于提高基于知识的对话系统鲁棒性的数据增强方法，其特征在于，包括：获取用户的至少一组对话数据；所述对话数据包含对话历史和由该对话历史中包含的实体通过实体链接获取的知识图谱；对话数据用于基于知识的对话系统的训练；在训练过程中，输入的对话数据首先通过实体扰动方法获取处理后的数据，然后将处理后的数据用于训练基于知识的对话系统；其中：所述实体扰动方法，包括以下步骤： 1）获取一组用于训练的对话数据，对知识图谱中的每个知识三元组以50%的概率随机对其进行扰动，其中知识三元组的形式为[头实体, 关系，尾实体]； 2）针对被扰动的知识三元组，获取其头实体与尾实体，并将头实体和尾实体中的30%的字替换为随机的其他任意字； 3）将对话历史中涉及的替换前的头实体或尾实体修改为替换后的对应的头实体或尾实体；修改后的知识图谱和对话历史为处理后的数据用于对话系统的训练。权　利　要　求　书 1/1 页 2 CN 114997184 A 2用于提高基于知识的对话系统鲁棒性的数据增强方法技术领域 [0001]本发明涉及基于知识的对话系统技术领域，具体来说是通过数据增强方法帮助基于知识的对话系统生成事实正确的回复，并增强系统的鲁棒性。背景技术 [0002]过去大部分基于知识的对话系统都侧重于通过外部知识图谱或知识库构建基于知识的对话系统，以生成具有丰富信息的回复。这些系统需要与用户进行知识丰富的对话。因此，生成忠实于某些给定知识图谱或知识库及其上下文的事实正确的回复非常重要。但是这些系统经常会产生似是而非的回复。例如，一个看似正确的文本 “周某伦的星座是天蝎座”与知识“(周某伦,星座,摩羯座) ”相矛盾。现有的方法一般应用于生成后的回复，通过外部知识修正生成后的文本来获取事实正确的回复。然而，并没有从训练阶段根本性的解决其问题。发明内容 [0003]本发明的目的是针对现有技术的不足而提供的一种用于提高基于知识的对话系统鲁棒性的数据增强方法，有助于对话系统生成事实正确的回复，并有助于对话系统迁移到具有新知识的场景。 [0004]实现本发明目的的具体技术方案是： [0005]一种用于提高基于知识的对话系统鲁棒性的数据增强方法，特点是：该方法包括： [0006]获取用户的至少一组对话数据； [0007]该对话数据包含对话历史、由该对话历史中包含的实体通过实体链接获取的知识图谱。对话数据用于基于知识的对话系统的训练；在训练过程中，输入的对话数据首先通过实体扰动方法获取处理后的数据，然后将处理后的数据用于训练基于知识的对话系统；其中： [0008]所述的实体扰动方法，包括以下步骤： [0009]1)获取一组用于训练的对话数据，对知识图谱中的每个知识三元组以50％的概率随机对其进行扰动，其中知识三元组的形式为 “[头实体,关系，尾实体] ”； [0010]2)针对被扰动的知识三元组，获取其头实体与尾实体，并将头实体和尾实体中的 30％的字替换为随机的其他任意字； [0011]3)将对话历史中涉及的替换前的头实体或尾实体修改为替换后的相应的头实体或尾实体；修改后相关的知识图谱和对话历史用于对话系统的训练。 [0012]与现有技术相比，本发明有以下优点： [0013]1、易用性：相比较于过去的方法，该方法在对话系统训练阶段，无需额外空间和时间消耗，并且能够轻松应用于任何给定知识图谱和对话历史输入的对话系统的训练。 [0014]2、正确性：该方法能够有效帮助基于知识的对话系统生成事实正确的回复，提高该系统的鲁棒性。说　明　书 1/3 页 3 CN 114997184 A 3

专利 用于提高基于知识的对话系统鲁棒性的数据增强方法

专利用于提高基于知识的对话系统鲁棒性的数据增强方法