专利 基于动态知识图谱的成果被引用量预测方法、介质及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210530426.2 (22)申请日 2022.05.16 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人庄越挺　宗畅　邵健　鲁伟明　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师傅朝栋　张法高 (51)Int.Cl. G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于动态知识图谱的成果被引用量预测方法、介质及设备 (57)摘要本发明公开了一种基于动态知识图谱的成果被引用量预测方法、介质及设备。本发明通过构建面向科技成果的动态时序知识图谱数据，利用图神经网络、循环神经网络、时序预测函数等算法模块，将成果的特征表示为成果相关多维度属性历史特征的聚合，并以成果历史引用量为标签，对成果未来多年的引用量进行预测。该方法可充分利用成果属性和成果间引用关系所构成的图谱结构信息，可支持对刚发布的成果进行较为准确的预测以解决冷启动问题。此外，该方法将图谱结构与时间序列特征充分融合，在特征表示和特征聚合环节均引入时间维度，训练所得到的模型在误差指标评估方面比同类任务方法有明显的提升。该方法可被用于解决科技创新场景下的多种实际任务。权利要求书3页说明书10页附图1页 CN 114817571 A 2022.07.29 CN 114817571 A 1.一种基于动态知识图谱的成果被引用量预测方法，其特征在于，包括如下步骤： S1、针对预先收集的目标类别成果引用数据，通过数据处理和图计算方法，以成果及影响其引用量的属性作为节点，构建出面向目标类别成果的动态知识图谱，并构建用于引用量预测的标签数据集； S2、构建成果被引用量预测网络模型，模型包括级联的时间增强图神经网络特征表示模块、成果属性时序影响力聚合表示模块和成果未来被引用量曲线计算模块；所述时间增强图神经网络特征表示模块中，利用融合异构图信息和时间信息的图卷积神经网络算法，对动态知识图谱中的每个节点进行特征向量表示；所述成果属性时序影响力聚合表示模块中，利用循环神经网络算法对每个成果的所有属性对象的历史特征进行影响力表示，进而聚合到成果对象上用于表示成果的当前影响力特征；所述成果未来被引用量曲线计算模块中，利用预先选定的被引用量曲线函数，并基于函数中的可学习参数，以成果影响力当前特征为输入，得到成果在未来多个时间点的被引用量； S3、利用S1中的所述标签数据集对S2中构建的成果被引用量预测网络模型进行迭代训练，每一轮迭代训练过程中需根据选定的误差函数对成果在未来多个时间点的被引用量与实际被引用量进行误差计算，并利用深度学习框架进行误差反向传播，更新整个模型的参数；迭代训练至模型收敛后，利用训练后的成果被引用量预测网络模型进行成果被引用量预测。 2.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法，其特征在于，所述 S1中，动态图谱构建包括历年成果图谱的图邻接矩阵生成、图谱节点特征的高斯分布初始化、图谱节点的ID化三个数据处理步骤，所构建出的动态知识图谱的节点为成果及影响其引用量的属性。 3.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法，其特征在于，所述 S1中，所构建的标签数据集，是针对共N年时长的成果动态图谱，从第N/2+1年的成果节点开始，计算每个成果在未来连续N/2 年的被引用量得到的，且成果在待预测年的被引用量预测以待预测年之前连续N/2年的历史被引用量作为输入模型的历史时序。 4.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法，其特征在于，所述目标类别成果为专利或论文，不同目标类别成果需分别构建不同的动态知识图谱；若目标类别成果为专利，则对应构建的专利动态知识图谱中的节点为专利以及影响专利引用量的申请人、拥有国、分类号三种属性对象，图中的节点关系类型包含专利与专利间的引用关系、申请人与专利之间的申请关系、拥有国与专利之间的拥有关系以及分类号与专利之间的主题关系；若目标类别成果为论文，则对应构建的论文动态知识图谱中的节点为论文以及影响论文引用量的学者、期刊、关键词三种属性对象，图中的节点关系类型包括论文与论文间的引用关系、学者与论文间的作者关系、期刊与论文间的刊载关系以及关键词与论文间的主题关系。 5.如权利要求1所述的基于动态知识图谱的成果被引用量预测方法，其特征在于，所述时间增强图神经网络特征表示模块中，共具有L层图神经网络；第l+1层图神经网络在对每权　利　要　求　书 1/3 页 2 CN 114817571 A 2个节点进行邻居特征聚合的同时，将上一个邻近时间图谱中同一个节点及其邻居的特征也聚合进来，以实现时间增强，得到的时间增强图神经网络特征计算公式如下：其中，为节点i在第l+1层图神经网络的特征向量， r为图谱中属性关系类型集合R 内的一种节点关系类型，为节点i在时间点t时关系类型为r的邻居节点，为关系类型为r的邻居节点在第l层的聚合权重， Wt(l)为从t‑1时刻到t时刻同一邻居节点在第l层图神经网络的聚合权重， l∈[0， . ..， L‑1]。 6.如权利要求5所述的基于动态知识图谱的成果被引用量预测方法，其特征在于，所述成果属性时序影响力聚合表示模块由成果属性时序影响力表示环节和成果属性影响力聚合表示环节组成；所述的成果属性时序影响力表示环节中，基于所述时间增强图神经网络特征表示模块中最后一层图神经网络输出的特征向量表示结果，将成果的每个属性对象历史每年的特征向量序列输入针对不同关系类型的双向循环神经网络算法，并通过全连接层，得到当前时间点的成果属性对象的特征向量，用于表示属性对象的当前影响力；属性对象的当前影响力计算公式如下：其中，表示在t0时刻的影响力， Or(p)表示成果p对于关系类型r的属性对象， FCr (·)表示针对关系类型r的全连接层操作，和表示针对关系类型r的双向长短期记忆神经网络层操作， | |表示连接操作； seq表示属性对象的历年特征序列：其中，表示与成果p之间关系类型为r的属性对象在t0‑Δt时间点的特征向量，即第L层图神经网络输出的该属性对象对应节点的特征向量 Δt表示用于预测成果被引用量的历史时序长度。所述的成果属性影响力聚合表示环节中，成果在当前时间点的影响力表示为其各个属性对象影响力特征在不同程度上的分解再聚合，即每种属性对象的影响力对于成果的作用程度与其对成果的贡献度和属性类型相关；成果属性影响力当前聚合后的当前影响力计算公式如下：其中，表示t0时刻成果p的当前影响力，表示t0时间点成果p对于关系类型r的属性对象的影响力， R为成果p所拥有的所有属性关系类型集合， Wa和Wb分别为属性对象对于成果的两种贡献度权重， Wr为成果p对于关系类型r的属性影响力聚合时的权重。 7.如权利要求6所述的基于动态知识图谱的成果被引用量预测方法，其特征在于，所述成果未来被引用量曲线计算模块中，选取通用Logistic函数作为被引用量曲线函数，函数以时间点和另外四个变量为参数，所述四个变量分别表示最大被引用规模、被引用量增长权　利　要　求　书 2/3 页 3 CN 114817571 A 3

专利 基于动态知识图谱的成果被引用量预测方法、介质及设备

专利基于动态知识图谱的成果被引用量预测方法、介质及设备