(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210697445.4
(22)申请日 2022.06.22
(71)申请人 成都量子矩阵科技有限公司
地址 610000 四川省成 都市高新区天府四
街66号1栋22层6号
(72)发明人 周焕来 邢增桓 李金润 任利
郭健煜 林思远 黄婧 高源
(51)Int.Cl.
G06F 16/36(2019.01)
G06K 9/62(2022.01)
G06Q 10/06(2012.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于生成式对抗模仿学习的强化学习知识
图谱推理方法
(57)摘要
本发明结合生成式对抗模仿学习的方法提
出一种基于RLKGR ‑GAIL的知识图谱推理算法用
于改进现有的基于强化学习的知识图谱路径推
理模型。 内容主要包 括: 提出了RLKGR ‑GAIL算法,
并给出了相应的总体框架图, 然后在根据已有的
维修文本构建的飞机维修领域知识图谱数据集,
并和已有的知识图谱推理算法设置了对照实验,
实验结果表明RLKGR ‑GAIL模型关系链路预测任
务上相较于其他模型都具有一定优势, 证明了本
文的RLKGR ‑GAIL模型的优 越性。
权利要求书4页 说明书6页 附图4页
CN 115269861 A
2022.11.01
CN 115269861 A
1.本发明提出一种基于生成式对抗模仿学习的强化学习知识图谱推理方法, 其特征在
于, 该算法包括以下步骤:
步骤一: 示例样本采样, 设计了一个自动采样器来从知识图谱中自动采样示例样本来
充当GAIL的专家策略;
步骤二: 生成对抗推理, 采用生成式对抗模仿学习GAIL模型, 包括生成器和判别器, 通
过生成式对抗训练从步骤一中提取的示例样本中学, 通过模仿仅由关系路径组成的示例样
本的路径级语义 来学习推理策略。
步骤三: 训练优化: 训练过程中, 利用所有正实体对来为模仿学习过程生成示例候选样
本ΩE。 具体来说就是, 对于每一个正实体对, 首先需要对应的示例样本路径, 这就依靠前文
的演示采样模块 获得; 同时训练过程也需要生 成关系路径, 而这就需要依靠生成器来 实现。
随后, 将示例样本整合成Pe, 生成的路径则根据其有效性从整合成不同的
生
成路径的有效性其实也就是智能体能否沿当前路径到达目标实体, 其中ΩG是所有生成路
径的集合。
步骤四: 实验与分析
(1)实验数据集
本发明的实验数据集来自于收集的维修文本经过实体识别和关系抽取之后的飞机维
修初始图谱。 对飞机维修初始知识图谱中的实体量、 关系量、 三元组数量进行统计。
(2)评价指标
本实验效果采用三个指标来进行评价, 分别是: MR R、 和Hits@N。
MRR(Mean Reciprocal Ranking)是平均倒数排名指 标, 通过评分函数对样本中测试集
的测试结果进行评分, 然后按照评分进行排序, MRR则是这些排名取倒数再求平均值, 如下
式所示:
其中N为测试三元组集, |N|测试集中三元组数量, ranki为测试集中第i个三元组的排
名, 由此看出, MR R指标越高的模型效果越好。
Hits@n是描述知识图谱链路预测测试集中得分排名小于n的三元组占测试集所有三元
组的比例, 如下式所示。
其中II为指示函数, 当测试样本得分排名小于n时指示函数值IIx≤n(ranki)为1, 否则
IIx≤n(ranki)为0; 指标Hits@1统计测试集得分排名第一, Hits@10统计测试集中排名前十 。
(3)模型参数
path_length为路径长度, hidden_size为隐藏层大小, embedding_size代表实体与关
系的嵌入大小, batch_size则是单轮训练样本数量, β 为熵正则 化参数, Lambda为移动平均
线参数、 total_iteration s是迭代次数, train_entity_embeddings则是代表训练样本实体
嵌入层标志位, t rain_relati on_embeddings为训练样本关系嵌入层标志位。权 利 要 求 书 1/4 页
2
CN 115269861 A
2(4)结果分析
为了能够更直观地表明本发明提出的基于生成式对抗模仿学习的飞机维修知识图谱
推理算法的性能和有效性, 采用了对比实验的方法, 将本发明提出的RLKGR ‑GAIL模型和
TransE、 De ep path以及MI NERVA进行对比, 得到对照实验结果。
与DeepPath模型相比, 我们的改进方法在飞机维修知识图谱数据集上, Hit@1, Hit@10,
MRR指标分别增加了12.57%, 4.99%, 8.90%; 与基础的MINERVA模型相比, 我们的改进方法
在飞机维修知识图谱数据集上, Hit@1, Hit@10, MR R分别增加4.45%, 0%, 1.9 9%。
由对照实验可以看出, 本发明提出的MINERVA(RLKGR ‑GAIL)在关系链路预测 上确实比
其他模型具有更好的效果, 说明本发明提出的结合生 成式对抗模仿学习(GA IL)和强化学习
可以在飞机维修知识图谱补 全可以取得有效的推理效果。 相较于现有的基于强化学习的知
识图谱推理算 法(Deep Path和MINERVA), 本发明提出MINERVA(RLKGR ‑GAIL)在Hits @1和MRR
指标都具有一定优势, 这也就验证了基于强化学习的知识图谱推理算法因为无法人工 设定
最佳奖励函数, 而实验效果欠佳, RLKGR ‑GAIL模型则通过动态自适应学习奖励函数和推理
路径克服了这些缺陷。
为了进一步验证本发明提出的RLKGR ‑GAIL算法的有效性, 我们设计了消融实验。 消融
实验是利用控制 变量法的一种实验思路, 其 目的是验证算法当中各个模块存在的必要性,
得到消融实验结果。
消融实验由四组实验组成, 主要是针对语义匹配、 动态示例采样、 以及整个示例采样模
块。 第一组为取消长尾实体的语义匹配, 取而代之的是根据其出现频率, 直接从剩余示例样
本中选取候选路径; 第二组为取消动态示例样本采样, 即只采用静态示例样本采样的方式
获得示例样本; 第三组为取消直接取消模仿学习的示例采样; 第四组则 是RLKGR‑GAIL模型
的MRR。
通过消融实验结果可以看出来, 在基于模仿学习的条件下, 即便只是通过静态采样的
方式获得示例样 本, 也可以提高推理效果; 此外, 高质量的示例样本对于模仿学习的影响立
竿见影, 这表明本发明提出的RLKGR ‑GAIL中语义匹配和拓扑结构滤波在采样模块不可或
缺。
2.根据权利要求1所述的示例样本采样方法, 其特 征在于, 所述内容包括如下步骤:
S1)对于每一个查询关系, 从飞机维修领域知识图谱中, 使用所用正实体对采样候选示
例样本, 即静态示例样本采样。 在知识图谱推理场景中, 由于推理链由关系组成, 所以说示
例样本也是只能由关系路径组成。 对于每一个正实体对, 使用双向广度优先搜索(bi ‑
directional breadth‑first search, BiBFS)来探索两个实体间的最短路径。 由于较短的
路径倾向于表征两个实体之间更直接的相关性, 系统初始化可用到这些较短路径, 这样可
以保障候选示例样本的质量; 至于较长的路径, 因为它们 更可能包含毫无价值甚至嘈杂的
推理步骤, 所以用处不大, 但 考虑到这些较长路径还是具有一些潜在的效用价值, 因此训练
阶段本发明将它们也纳入学习对象中。 由此, 得到了一个示例样本集ΩE, 这就是静态示例
样本采样, 而为了与GAIL中鉴别器固定输入 维度相适应, 选择ΩE中的一个出现频率最高的
子集Pe。
S2)为了全面考虑到飞机维修领域知识图谱中每个实体的特定环境, 通过考虑实体的
拓扑相关性来进行动态示例样本采样。 给定一个正实体对(entityhead, entitytail), 引入一权 利 要 求 书 2/4 页
3
CN 115269861 A
3
专利 基于生成式对抗模仿学习的强化学习知识图谱推理方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:58:36上传分享