专利 基于生成式对抗模仿学习的强化学习知识图谱推理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210697445.4 (22)申请日 2022.06.22 (71)申请人成都量子矩阵科技有限公司地址 610000 四川省成都市高新区天府四街66号1栋22层6号 (72)发明人周焕来　邢增桓　李金润　任利　郭健煜　林思远　黄婧　高源　 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06Q 10/06(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于生成式对抗模仿学习的强化学习知识图谱推理方法 (57)摘要本发明结合生成式对抗模仿学习的方法提出一种基于RLKGR ‑GAIL的知识图谱推理算法用于改进现有的基于强化学习的知识图谱路径推理模型。内容主要包括：提出了RLKGR ‑GAIL算法，并给出了相应的总体框架图，然后在根据已有的维修文本构建的飞机维修领域知识图谱数据集，并和已有的知识图谱推理算法设置了对照实验，实验结果表明RLKGR ‑GAIL模型关系链路预测任务上相较于其他模型都具有一定优势，证明了本文的RLKGR ‑GAIL模型的优越性。权利要求书4页说明书6页附图4页 CN 115269861 A 2022.11.01 CN 115269861 A 1.本发明提出一种基于生成式对抗模仿学习的强化学习知识图谱推理方法，其特征在于，该算法包括以下步骤：步骤一：示例样本采样，设计了一个自动采样器来从知识图谱中自动采样示例样本来充当GAIL的专家策略；步骤二：生成对抗推理，采用生成式对抗模仿学习GAIL模型，包括生成器和判别器，通过生成式对抗训练从步骤一中提取的示例样本中学，通过模仿仅由关系路径组成的示例样本的路径级语义来学习推理策略。步骤三：训练优化：训练过程中，利用所有正实体对来为模仿学习过程生成示例候选样本ΩE。具体来说就是，对于每一个正实体对，首先需要对应的示例样本路径，这就依靠前文的演示采样模块获得；同时训练过程也需要生成关系路径，而这就需要依靠生成器来实现。随后，将示例样本整合成Pe，生成的路径则根据其有效性从整合成不同的生成路径的有效性其实也就是智能体能否沿当前路径到达目标实体，其中ΩG是所有生成路径的集合。步骤四：实验与分析 (1)实验数据集本发明的实验数据集来自于收集的维修文本经过实体识别和关系抽取之后的飞机维修初始图谱。对飞机维修初始知识图谱中的实体量、关系量、三元组数量进行统计。 (2)评价指标本实验效果采用三个指标来进行评价，分别是： MR R、和Hits@N。 MRR(Mean Reciprocal Ranking)是平均倒数排名指标，通过评分函数对样本中测试集的测试结果进行评分，然后按照评分进行排序， MRR则是这些排名取倒数再求平均值，如下式所示：其中N为测试三元组集， |N|测试集中三元组数量， ranki为测试集中第i个三元组的排名，由此看出， MR R指标越高的模型效果越好。 Hits@n是描述知识图谱链路预测测试集中得分排名小于n的三元组占测试集所有三元组的比例，如下式所示。其中II为指示函数，当测试样本得分排名小于n时指示函数值IIx≤n(ranki)为1，否则 IIx≤n(ranki)为0；指标Hits@1统计测试集得分排名第一， Hits@10统计测试集中排名前十。 (3)模型参数 path_length为路径长度， hidden_size为隐藏层大小， embedding_size代表实体与关系的嵌入大小， batch_size则是单轮训练样本数量， β 为熵正则化参数， Lambda为移动平均线参数、 total_iteration s是迭代次数， train_entity_embeddings则是代表训练样本实体嵌入层标志位， t rain_relati on_embeddings为训练样本关系嵌入层标志位。权　利　要　求　书 1/4 页 2 CN 115269861 A 2(4)结果分析为了能够更直观地表明本发明提出的基于生成式对抗模仿学习的飞机维修知识图谱推理算法的性能和有效性，采用了对比实验的方法，将本发明提出的RLKGR ‑GAIL模型和 TransE、 De ep path以及MI NERVA进行对比，得到对照实验结果。与DeepPath模型相比，我们的改进方法在飞机维修知识图谱数据集上， Hit@1， Hit@10， MRR指标分别增加了12.57％， 4.99％， 8.90％；与基础的MINERVA模型相比，我们的改进方法在飞机维修知识图谱数据集上， Hit@1， Hit@10， MR R分别增加4.45％， 0％， 1.9 9％。由对照实验可以看出，本发明提出的MINERVA(RLKGR ‑GAIL)在关系链路预测上确实比其他模型具有更好的效果，说明本发明提出的结合生成式对抗模仿学习(GA IL)和强化学习可以在飞机维修知识图谱补全可以取得有效的推理效果。相较于现有的基于强化学习的知识图谱推理算法(Deep Path和MINERVA)，本发明提出MINERVA(RLKGR ‑GAIL)在Hits @1和MRR 指标都具有一定优势，这也就验证了基于强化学习的知识图谱推理算法因为无法人工设定最佳奖励函数，而实验效果欠佳， RLKGR ‑GAIL模型则通过动态自适应学习奖励函数和推理路径克服了这些缺陷。为了进一步验证本发明提出的RLKGR ‑GAIL算法的有效性，我们设计了消融实验。消融实验是利用控制变量法的一种实验思路，其目的是验证算法当中各个模块存在的必要性，得到消融实验结果。消融实验由四组实验组成，主要是针对语义匹配、动态示例采样、以及整个示例采样模块。第一组为取消长尾实体的语义匹配，取而代之的是根据其出现频率，直接从剩余示例样本中选取候选路径；第二组为取消动态示例样本采样，即只采用静态示例样本采样的方式获得示例样本；第三组为取消直接取消模仿学习的示例采样；第四组则是RLKGR‑GAIL模型的MRR。通过消融实验结果可以看出来，在基于模仿学习的条件下，即便只是通过静态采样的方式获得示例样本，也可以提高推理效果；此外，高质量的示例样本对于模仿学习的影响立竿见影，这表明本发明提出的RLKGR ‑GAIL中语义匹配和拓扑结构滤波在采样模块不可或缺。 2.根据权利要求1所述的示例样本采样方法，其特征在于，所述内容包括如下步骤： S1)对于每一个查询关系，从飞机维修领域知识图谱中，使用所用正实体对采样候选示例样本，即静态示例样本采样。在知识图谱推理场景中，由于推理链由关系组成，所以说示例样本也是只能由关系路径组成。对于每一个正实体对，使用双向广度优先搜索(bi ‑ directional breadth‑first search， BiBFS)来探索两个实体间的最短路径。由于较短的路径倾向于表征两个实体之间更直接的相关性，系统初始化可用到这些较短路径，这样可以保障候选示例样本的质量；至于较长的路径，因为它们更可能包含毫无价值甚至嘈杂的推理步骤，所以用处不大，但考虑到这些较长路径还是具有一些潜在的效用价值，因此训练阶段本发明将它们也纳入学习对象中。由此，得到了一个示例样本集ΩE，这就是静态示例样本采样，而为了与GAIL中鉴别器固定输入维度相适应，选择ΩE中的一个出现频率最高的子集Pe。 S2)为了全面考虑到飞机维修领域知识图谱中每个实体的特定环境，通过考虑实体的拓扑相关性来进行动态示例样本采样。给定一个正实体对(entityhead， entitytail)，引入一权　利　要　求　书 2/4 页 3 CN 115269861 A 3

专利 基于生成式对抗模仿学习的强化学习知识图谱推理方法

专利基于生成式对抗模仿学习的强化学习知识图谱推理方法