(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210530426.2
(22)申请日 2022.05.16
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 庄越挺 宗畅 邵健 鲁伟明
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 傅朝栋 张法高
(51)Int.Cl.
G06F 16/36(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于动态知识图谱的成果被引用量预测方
法、 介质及设备
(57)摘要
本发明公开了一种基于动态知识图谱的成
果被引用量预测方法、 介质及设备。 本发明通过
构建面向科技成果的动态时序知识图谱数据, 利
用图神经网络、 循环神经网络、 时序预测函数等
算法模块, 将成果的特征表示为成果相关多维度
属性历史特征的聚合, 并以成果历史引用量为标
签, 对成果未来多年的引用量进行预测。 该方法
可充分利用成果属性和成果间引用关系所构成
的图谱结构信息, 可支持对刚发布的成果进行较
为准确的预测以解决冷启动问题。 此外, 该方法
将图谱结构与时间序列特征充分融合, 在特征表
示和特征聚合环节均引入时间维度, 训练所得到
的模型在误差指标评估方面比同类任务方法有
明显的提升。 该方法可被用于解决科技创新场景
下的多种实际任务。
权利要求书3页 说明书10页 附图1页
CN 114817571 A
2022.07.29
CN 114817571 A
1.一种基于动态知识图谱的成果被引用量预测方法, 其特 征在于, 包括如下步骤:
S1、 针对预先收集的目标类别成果引用数据, 通过数据处理和图计算方法, 以成果及影
响其引用量的属 性作为节点, 构建出面向目标类别成果的动态知识图谱, 并构建用于引用
量预测的标签数据集;
S2、 构建成果被引用量预测网络模型, 模型包括级联的时间增强图神经网络特征表示
模块、 成果属性时序影响力聚合表示模块和成果未来被引用量曲线计算模块;
所述时间增强图神经网络特征表示模块中, 利用融合异构图信 息和时间信 息的图卷积
神经网络算法, 对动态知识图谱中的每 个节点进行 特征向量表示;
所述成果属性 时序影响力聚合表示模块中, 利用循环神经网络算法对每个成果的所有
属性对象的历史特征进行影响力表示, 进而聚合到成果对象上用于表示成果的当前影响力
特征;
所述成果未来被引用量曲线计算模块中, 利用预先选定的被引用量曲线函数, 并基于
函数中的可学习参数, 以成果影响力 当前特征为输入, 得到成果在未来多个时间点的被引
用量;
S3、 利用S1中的所述标签数据集对S2中构建的成果被引用量预测网络模型进行迭代训
练, 每一轮迭代训练过程中需根据选定的误差函数对成果在未来多个时间点的被引用量与
实际被引用量进行误差计算, 并利用深度学习框架进行误差反向传播, 更新整个模型 的参
数; 迭代训练至模型收敛后, 利用训练后的成果被引用量预测网络模型进行成果被引用量
预测。
2.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法, 其特征在于, 所述
S1中, 动态图谱构建包括历年成果图谱的图邻接矩阵生成、 图谱节点特征的高斯分布初始
化、 图谱节点的ID化三个数据处理步骤, 所构建出的动态知识图谱的节点为成果及影响其
引用量的属性。
3.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法, 其特征在于, 所述
S1中, 所构建的标签数据集, 是针对共N年时长的成果动态图谱, 从第N/2+1年的成果节 点开
始, 计算每个成果在未来连续N/2 年的被引用量得到的, 且成果在 待预测年的被引用量预测
以待预测年之前 连续N/2年的历史被引用量作为输入 模型的历史时序。
4.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法, 其特征在于, 所述
目标类别成果 为专利或论文, 不同目标类别成果需分别构建不同的动态知识图谱;
若目标类别成果为专利, 则对应构建的专利动态知识图谱中的节点为专利以及影响专
利引用量的申请人、 拥有国、 分类号三种属性对象, 图中的节点关系类型包含专利与 专利间
的引用关系、 申请人与专利 之间的申请关系、 拥有国与专利 之间的拥有关系以及分类号与
专利之间的主题关系;
若目标类别成果为论文, 则对应构建的论文动态知识图谱中的节点为论文以及影响论
文引用量的学者、 期刊、 关键词三种属性对象, 图中的节点关系类型包括论文与论文间的引
用关系、 学者与论文间的作者关系、 期刊与论文间的刊 载关系以及关键词与论文间的主题
关系。
5.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法, 其特征在于, 所述
时间增强图神经网络特征表示模块中, 共具有L层图神经网络; 第l+1层图神经网络在对每权 利 要 求 书 1/3 页
2
CN 114817571 A
2个节点进 行邻居特征聚合的同时, 将上一个邻近时间图谱中同一个节点及其邻居的特征也
聚合进来, 以实现时间增强, 得到的时间增强图神经网络特 征计算公式如下:
其中,
为节点i在第l+1层图神经网络的特征向量, r为图谱 中属性关系类型集合R
内的一种节点关系类型,
为节点i在 时间点t时关系类型为r的邻居节点,
为关系类
型为r的邻居节点在第l层的聚合权重, Wt(l)为从t‑1时刻到t时刻同一邻居节点在第l层图
神经网络的聚合权 重, l∈[0, . .., L‑1]。
6.如权利要求5所述的基于动态知识图谱的成果被引用量预测方法, 其特征在于, 所述
成果属性时序影响力聚合表示模块由成果属 性时序影响力表示环节和成果属 性影响力聚
合表示环 节组成;
所述的成果属性 时序影响力表示环节中, 基于所述 时间增强图神经网络特征表示模块
中最后一层图神经网络输出的特征向量表示结果, 将成果的每个属性对象历史每年的特征
向量序列输入针对不同关系类型 的双向循环神经网络算法, 并通过全连接层, 得到当前时
间点的成果属 性对象的特征向量, 用于表示属 性对象的当前影响力; 属 性对象的当前影响
力计算公式如下:
其中,
表示在t0时刻的影响力, Or(p)表示成果p对于关系类型r的属性对象, FCr
(·)表示针对关系类型r的全连接层操作,
和
表示针对关系类型r的双向
长短期记 忆神经网络层操作, | |表示连接操作; seq表示属性对象的历年特 征序列:
其中,
表示与成果p之间关系类型为r的属性对象在t0‑Δt时间点的特征向
量, 即第L层图神经 网络输出的该属性对象对应节点的特征向量
Δt表示用于预测成果
被引用量的历史时序长度。
所述的成果属性影响力聚合表示环节中, 成果在当前时间点的影响力表示为其各个属
性对象影响力特征在不同程度上的分解再聚合, 即每种属性对象的影响力对于成果的作用
程度与其对成果的贡献度和属性类型相关; 成果属性影响力当前聚合后的当前影响力计算
公式如下:
其中,
表示t0时刻成果p的当前影响力,
表示t0时间点成果p对于关系类
型r的属性对象的影响力, R为成果p所拥 有的所有属性关系类型集合, Wa和Wb分别为属性对
象对于成果的两种贡献度权 重, Wr为成果p对于关系类型r的属性影响力聚合时的权 重。
7.如权利要求6所述的基于动态知识图谱的成果被引用量预测方法, 其特征在于, 所述
成果未来被引用量曲线计算模块中, 选取通用Logistic函数作为被引用量曲线函数, 函数
以时间点和另外四个变量为参数, 所述四个变量分别表示最大被引用规模、 被引用量增长权 利 要 求 书 2/3 页
3
CN 114817571 A
3
专利 基于动态知识图谱的成果被引用量预测方法、介质及设备
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:57:50上传分享