说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210508093.3 (22)申请日 2022.05.10 (71)申请人 国网上海市电力公司 地址 200122 上海市浦东 新区自由贸易试 验区源深路1 122号 申请人 中国科学院计算 技术研究所 (72)发明人 纪雯 邱锐 梁云丹 柏峻峰  黄怡 李翔 奚增辉 王卫斌  瞿海妮 沈邵骏 张勇 何琬  夏利宇 许精策  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 专利代理师 夏健君 (51)Int.Cl. G06F 16/36(2019.01)G06F 16/901(2019.01) G06F 40/30(2020.01) (54)发明名称 基于机器阅读理解的实体关系联合抽取方 法及系统 (57)摘要 本发明涉及一种基于机器阅读理解的实体 关系联合抽取方法及系统, 方法首先针对实体类 型和关系类型分别设计实体抽取问题模板和关 系抽取问题模板, 并基于机器阅读理解进行非限 定实体抽取; 接着根据抽取的实体 分别筛选正向 抽取候选关系集合和逆向抽取候选关系集合, 基 于上述候选关系集合自动生成关系抽取问题模 板, 并基于机器阅读理解进行限定式双向关系抽 取; 对于推理过程, 将正向和逆向抽取的实体关 系三元组取交集和差集, 交集直接作为最终结 果, 差集中概率大于阈值的三元 组也并入到结果 中。 与现有技术相比, 本发明可 以有效地解决实 体关系语义建模不全面, 以及重叠三元组问题, 最终为构建知识 图谱提供高质量的实体关系三 元组。 权利要求书2页 说明书8页 附图2页 CN 114969359 A 2022.08.30 CN 114969359 A 1.一种基于 机器阅读理解的实体关系联合抽取 方法, 其特 征在于, 包括以下步骤: 步骤1: 根据预先设定好的实体类型和关系类型分别设置实体抽取问题模板和基于已 抽取实体的关系抽取问题模板, 所述关系抽取问题模板包括关系尾实体抽取问题模板和关 系头实体抽取问题模板; 步骤2: 获取待预测句子, 将所述体抽取问题模板与该待预测句子拼接, 然后通过第一 机器阅读理解模型进行非限定实体抽取, 输出 所述待预测句子中的实体片段; 步骤3: 根据步骤2中获取的实体片段作为头实体从所述关系尾实体抽取问题模板 中筛 选并填充实体片段得到正向抽取候选关系集合, 将实体片段作为尾实体从所述关系头实体 抽取问题模板中筛选并填充实体片段得到逆向抽取候选 关系集合, 然后基于正向抽取候选 关系集合和逆向抽取候选关系集 合生成关系抽取问题模板; 步骤4: 基于第 二机器阅读理解模型将步骤3获取的关系抽取问题模板与待预测句子拼 接, 抽取尾实体或头实体, 得到正向抽取和逆向抽取的实体关系三元组; 取正向抽取和逆向 抽取的实体关系三元 组交集, 以及差集中概率大于既定阈值的三元组作为最 终实体关系三 元组; 抽取尾实体为 正向抽取, 抽取头实体为逆向抽取; 所述第一机器阅读理解模型和第 二机器阅读理解模型的训练过程为: 循环执行步骤2 ‑ 步骤4, 对第一机器阅读理解模型和第二机器阅读理解模型进行 联合训练。 2.根据权利要求1所述的一种基于机器阅读理解的实体关系联合抽取方法, 其特征在 于, 步骤1中, 根据设定的实体类型, 设计对应的实体抽取问题模板, 所述 实体抽取问题模板 的设计方式包括基于关键词构造法、 基于规则模板构造法、 基于维基百科构造法和基于标 注指南构造法。 3.根据权利要求1所述的一种基于机器阅读理解的实体关系联合抽取方法, 其特征在 于, 步骤1中, 所述关系尾实体抽取问题模板的构建过程为: 以头实体作为已知实体构造关 系尾实体抽取问题模板; 所述关系头实体抽取问题模板的构建过程为: 以尾实体作为已知实体, 构造关系头实 体抽取问题模板 。 4.根据权利要求1所述的一种基于机器阅读理解的实体关系联合抽取方法, 其特征在 于, 所述步骤2具体包括以下子步骤: 步骤21: 获取待预测句子, 将所述体抽取问题模板与该待预测句子拼接; 步骤22: 对拼接后的句子进行分词得到词符, 并将每个词符映射到一个唯一id值, 用以 查询词符对应的嵌入词向量; 步骤23: 以第一机器阅读理解模型作为实体抽取框架, 输 出文本 其 中每个词元ci的上下文表示 对每个词符输出向量进行多分类, 将词符 识别为标签中的一个, 输出 标签序列; 步骤24: 对步骤23 输出的标签序列进行解码得到实体片段。 5.根据权利要求4所述的一种基于机器阅读理解的实体关系联合抽取方法, 其特征在 于 ,步 骤 2 1 中 ,所 述 拼 接 的 方 式 为 :给 定 问 题 和 文 本 其中Nq和Nc分别表示问题和文本的字数, 利用[CLS]和[SEP]分别作为权 利 要 求 书 1/2 页 2 CN 114969359 A 2特殊字符和分隔符连接问题和文本, 拼接后表示 为[CLS]Q[ SEP]C的形式。 6.根据权利要求4所述的一种基于机器阅读理解的实体关系联合抽取方法, 其特征在 于, 步骤23中, 每 个词元ci属于某个标签的概 率的计算表达式为: 式中, 和 是待学习参数, db表示标签集合的大小, dh为上下文表示H中各 嵌入向量hi的维度, 表示预测的标签, 为词元ci属于标签 的概率。 7.根据权利要求4所述的一种基于机器阅读理解的实体关系联合抽取方法, 其特征在 于, 所述实体片段中的每 个实体包 含实体类型和实体片段在待预测句子中的首尾索引。 8.根据权利要求1所述的一种基于机器阅读理解的实体关系联合抽取方法, 其特征在 于, 步骤4中, 所述 最终实体关系三元组的计算表达式为: T=T′∪{(ehead,r,etail)|(ehead,r,etail)∈T″,p(ehead,r,etail)>δ } 式中, T为最终实体关系三元组, T ′为实体关系三元组的交集, T ″为实体关系三元组的 差集, δ为阈值, 正向抽取的实体 关系三元组表示为 逆向抽取的 实体关系三元组表示为 ehead为头实体, r为关系, etail为尾实体, 当且仅当差集中的三元组概率大于阈值时才认为是有效的实体关系三元组, 头实体 或尾实 体的概率由实体片段的头索引和尾索引对应标签概 率乘积得到 。 9.根据权利要求1所述的一种基于机器阅读理解的实体关系联合抽取方法, 其特征在 于, 所述第一机器阅读理解模型和 第二机器阅读理解模型进 行联合训练的优化目标的计算 表达式为: 式中, 为联合训练的损失函数, 为第一机器阅读理解模型进行非限定实体抽的损 失函数, 为第二机器阅读理解模型进行正向抽取的损失函数, 为第二机器阅读理 解模型进行逆向抽取的损失函数, λ∈[0,1]为权 重系数。 10.一种基于如权利要求1 ‑9任一所述的一种基于机器阅读理解的实体关系联合抽取 方法的实体关系联合抽取系统, 其特 征在于, 包括: 问题模板生成模块, 被 配置为执 行所述步骤1; 非限定实体抽取模块, 被 配置为执 行所述步骤2; 关系筛选模块, 被 配置为执 行所述步骤3; 限定双向关系抽取模块, 被 配置为执 行所述步骤4。权 利 要 求 书 2/2 页 3 CN 114969359 A 3

.PDF文档 专利 基于机器阅读理解的实体关系联合抽取方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于机器阅读理解的实体关系联合抽取方法及系统 第 1 页 专利 基于机器阅读理解的实体关系联合抽取方法及系统 第 2 页 专利 基于机器阅读理解的实体关系联合抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:58:30上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。