说明:收录各省市地方标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210712887.1 (22)申请日 2022.06.22 (71)申请人 上海应用技 术大学 地址 200235 上海市徐汇区漕宝路120 -121 号 (72)发明人 肖立中 郑云鹏 (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 专利代理师 胡晶 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/34(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于知识图谱的文本摘要生成方法 (57)摘要 本发明提供了一种基于知识图谱的文本摘 要生成方法, 包括如下步骤: 对原始数据进行信 息抽取形成数据集, 将数据集中一条数据的标题 和知识图谱分别进行编码处理, 获得第一编码向 量和第二编码向量; 第一编码向量和第二编码向 量进行拼接获得上下文向量; 结合上下文向量和 各时间步的输出计算出词表概率 分布, 复制概率 和复制分布; 对词表概率分布和复制分布做加权 计算, 获得最终概率分布。 本发明能够根据标题 和知识图谱生成对应的文本摘要, 而且还根据上 下文向量判断固定词汇表中是否具有足够的词 汇去生成对应的文本摘要, 在固定词汇表中词汇 不足时, 还 可以通过复制数据集中的词汇用于生 成文本摘要, 从而提高了文本摘要生成的精度。 权利要求书2页 说明书6页 附图1页 CN 115129812 A 2022.09.30 CN 115129812 A 1.一种基于知识图谱的文本摘要生成方法, 其特 征在于, 包括如下步骤: 对原始数据进行信息抽取形成数据集, 其中, 所述数据集中的每一条数据均包含 同一 篇文章的标题和知识图谱; 将所述数据集中一条数据的标题和知识图谱分别进行编码处理, 获得第 一编码向量和 第二编码向量; 所述第一编码向量和第二编码向量进行拼接获得 上下文向量; 结合上下文向量和各时间步的输出计算出词表概 率分布, 复制概 率和复制分布; 对所述词表概 率分布和复制分布 做加权计算, 获得最终概 率分布; 根据最终概 率分布选择对应的每一时间步的候选 输出, 通过候选 输出生成文本摘要。 2.根据权利要求1所述的基于知识图谱的文本摘要生成方法, 其特征在于, 在对所述知 识图谱在编码处理时, 对所述知识图谱的每个前节点计算其本身的信息, 且计算邻接节点 的信息, 其计算公式为: 其中, 为Vi节点编码进邻居节点信息的向量, i是计算信息的当前节点编号, j是当前 节点的邻居节点编号, V是节点符号, Vi是节点i的向量, 其维度是d, N代表当前节点拥有的 邻居节点总数, n是注意力头 的编号, H是模型中的注意力头的总数, 是第n个注意力头 中节点i对节点j的注意力值, 是多头注意力机制中第n个注意力头的参数矩阵, 其 维度 是d×d, 其值随模型训练而得, 初始值随机生成。 3.根据权利要求1所述的基于知识图谱的文本摘要生成方法, 其特征在于, 各所述 时间 步的输出采用覆盖 机制进行处 理, 所述覆盖 机制的计算公式为: 其中, Ni代表第i个节点的邻居节点集合, i、 j和z分别是节点的编号, 其中k和q都是与节 点向量维度一致的向量, WK和WQ都是维度为d ×d的参数矩阵, 其初始值随机生成, 并在训练 中随模型学习而更新, k由节点向量左乘WK而得, q由节点 向量左乘WQ而得, ωc是维度为d的 参数向量, 初始值随机生成, 随模型学习而更新, cit是i节点的第t个时间步的覆盖向量, battn是初始值随机生成, 随模型 学习而更新的偏置值。 4.根据权利要求3所述的基于知识图谱的文本摘要生成方法, 其特征在于, 所述覆盖向 量ct由所有时间步的注意力概 率分布求和得到, 其计算公式为: 其中, t代表第t个时间步, t'是求和标记的编号, t'从第 0个时间步开始, 一直取到第t ‑ 1个时间步, 将时间步的所有注意力分布求和。 5.根据权利要求3所述的基于知识图谱的文本摘要生成方法, 其特征在于, 所述覆盖机 制采用覆盖损失来 惩罚对同一词语重复关注, 其计算公式为:权 利 要 求 书 1/2 页 2 CN 115129812 A 2其中, 是第i个节点的注意力 分布, ωt*是目标词, ‑logP是负对数最大似然公式, λ是 一个初始值随机生成的随模型 学习而更新的参数。 6.根据权利要求1所述的基于知识图谱的文本摘要生成方法, 其特征在于, 所述知识图 谱的上下文向量的计算公式为; 其中, ht是解码器的隐层向量, N是注意力头的总数, V是知识图谱所有节点的集合, 是第n注意力头中节点j的注意力分布, vL j是图的编码矩阵中的第j列。 7.根据权利要求1所述的基于知识图谱的文本摘要生成方法, 其特征在于, 所述复制概 率的计算公式为: p=σ(Wcopy[ht||ct]+bcopy) 其中, σ 是sigmoid函数, Wcopy是参数矩阵, 数值由训练而得, ht是解码器的隐层向量, ct 是覆盖向量, bcopy是偏置向量。 8.根据权利要求1所述的基于知识图谱的文本摘要生成方法, 其特征在于, 所述最终概 率分布的计算公式为: P最 终=p*αcopy+(1‑p)*αvocab 其中, p为权 重系数, αcopy为词表概 率分布, αvocab为复制分布。 9.根据权利要求1所述的基于知识图谱的文本摘要生成方法, 其特征在于, 所述标题和 知识图谱分别通过输入前馈神经网络和图注意力层来 获取第一编 码向量和 第二编码向量, 所述前馈神经网络和图注意力层采用mish函数, 所述mish函数的计算公式为: mish=x*tanh(l n(1+ex)) 其中, x为输入数据, tanh是双曲正切函数。权 利 要 求 书 2/2 页 3 CN 115129812 A 3
专利 基于知识图谱的文本摘要生成方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 10:58:53
上传分享
举报
下载
原文档
(584.5 KB)
分享
友情链接
CSA 企业数据安全风险管理指南.pdf
GB-T 1859.3-2015 往复式内燃机 声压法声功率级的测定 第3部分:半消声室精密法.pdf
GB-T 37681-2019 大型铸钢件 通用技术规范.pdf
tc260 人工智能安全标准化白皮书 2019.pdf
GB-T 23237-2009 腧穴定位人体测量方法.pdf
GB-T 9711-2017 石油天然气工业 管线输送系统用钢管.pdf
之江实验室 - 2023.6.6 - 生成式大模型安全与隐私白皮书.pdf
T-AIITRE 10004—2023 数字化转型 成熟度模型.pdf
GB-Z 40846-2021 工程咨询 基本术语.pdf
DB51-T 3121-2023 电子政务外网技术规范 四川省.pdf
GB 19574-2004 高压钠灯用镇流器能效限定值及节能评价值.pdf
GB-T 28450-2020 信息技术 安全技术 信息安全管理体系审核指南.pdf
GB-T 18305-2016 质量管理体系 汽车生产件及相关服务件组织应用GB-T 19001—2008的特别要求.pdf
T-CSBZ 007—2017 石材防水背胶.pdf
GB-T 36630.1-2018 信息安全技术 信息技术产品安全可控评价指标 第1部分:总则.pdf
GB-T 21697-2022 低压配电线路和电子系统中雷电过电压的绝缘配合.pdf
DB11-T 968-2021 预制混凝土构件质量检验标准 北京市.pdf
GB-T 43709-2024 资产管理信息化 数据质量管理要求.pdf
GB-T 32904-2016 软件质量量化评价规范.pdf
DB46-T 257-2013 白木香通体结香树木剖香技术规程 海南省.pdf
1
/
3
10
评价文档
赞助2.5元 点击下载(584.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。