专利 基于图神经网络的上下位关系抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210519548.1 (22)申请日 2022.05.12 (66)本国优先权数据 202210286462.9 202 2.03.22 CN (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人庄越挺　宗畅　陈泽群　邵健　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师郑海峰 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06F 16/31(2019.01)G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于图神经网络的上下位关系抽取方法 (57)摘要本发明提供了一种基于图神经网络的上下位关系抽取方法。该方法首先通过字符串匹配的方式从文献库中发现出现待预测术语的文献，将这些文献的标题、摘要和待预测术语本身进行分级建图，同时，应用预训练语言模型获取图中每个节点的语义特征表示从而完成数据关联，得到描述每对待判别术语之间上下位关系的特征图；应用图表示学习算法学习图中每个节点的特征表示；对于图中学习到的每个节点的特征，分别聚合待判别术语对在不同节点上的特征表示；根据构建的待判别术语对的特征表示，判断两个术语之间是否具有上下位的关系。本发明提出的方法能聚合上下位词在不同篇章之内的信息，从而更加准确的判别上下位关系。权利要求书4页说明书9页附图2页 CN 115146626 A 2022.10.04 CN 115146626 A 1.一种基于图神经网络的上下位关系抽取方法，其特征在于，包括如下步骤： 1)通过字符串匹配的方式从文献库中发现出现待预测术语的文献；将这些文献的标题、摘要和待预测术语本身进行分级建图，应用预训练语言模型获取图中每个节点的语义特征表示从而完成数据关联，得到描述每对待判别术语之间上下位关系的特征图； 2)利用图表示学习模块进行图表示学习：对步骤1)得到的特征图，应用图表示学习算法学习图中每个节点的特征表示； 3)利用特征聚合模块进行特征聚合：对于图中学习到的每个节点的特征，分别聚合待判别术语对在不同节点上的特征表示； 4)利用关系判别模块进行关系判别：合并步骤2)和3)中构建的特征，得到最后表达两个短语之间上下位关系的特征表示通过多层感知机MLP对进行判别，判断后经过 softmax函数得到该短语对为上下位关系的概率 5)利用训练样本中每对短语为上下位关系的概率对上下位关系判别模型进行训练，所述上下位关系判别模型包括步骤2)中的图表示学习模块，步骤3)中的特征聚合模块和步骤4)中的关系判别模块； 6)对于需要判别的Punlabeled＝{pi|1≤i≤R}，对其中的短语两两组合得到不同的短语对，同样应用步骤1 中的构图方法得到每对短语对的特征图，由步骤5)训练完成后的上下位关系判别模型判别得到短语对是否为上下位关系，从而完成抽取。 2.根据权利要求1所述的基于图神经网络的上下位关系抽取方法，其特征在于，所述的步骤1)中的通过字符串匹配的方式从文献库中发现出现待预测术语的文献，具体为：对于已有的上下位关系短语库Plabeled＝{(hyperi,hypoi,yi)|1≤i≤N}，聚合其中包含的所有短语构成短语集合H＝{p1,p2,…,ph}；其中hyperi代表上下位关系中的上位词， hypoi 代表下位词， yi∈{0,1}为该组标注数据的标签， 0代表非上下位关系， 1代表两个词构成上下位关系；对于文献库D＝{di＝(ti,ai)|1≤i≤M}，其中代表文献di的标题，代表文献的主体内容；将文献库D中的每篇文档分割为句子得到分割后的文献集合同时，给予每篇文献、每条句子、每个短语一个数字id，分别称作paper_id、 sentence_id、 entity_id；对于构成集合H中的每个短语pi，再找出其出现过的文档及对应的句子；查询采用字符串多模式匹配算法AC自动机；通过对文献的分割和字符串匹配算法得到映射关系。 3.根据权利要求2所述的基于图神经网络的上下位关系抽取方法，其特征在于，所述的步骤1)中的将这些文献的标题、摘要和待预测术语本身进行分级建图，具体为：对于已经完成匹配的所有短语进行建图；图中共包含4类节点和6类边类型， 4类节点分别为文献节点、句子节点、指称节点和短语节点； 6类边类型的名称分别为：文献句子、句子句子、指称句子、短语 ←指称、指称指称、自环边；将已标注的上下位短语对作为训练数据，对于其中的每对短语(hyperi,hypoi)，按照节点类型及边类型进行建图。 4.根据权利要求3所述的基于图神经网络的上下位关系抽取方法，其特征在于，所述的权　利　要　求　书 1/4 页 2 CN 115146626 A 2步骤1)中的应用预训练语言模型获取图中每个节点的语义特征表示从而完成数据关联，得到描述每对待判别术语之间上下位关系的特征图，具体为：应用BERT预训练语言模型获取文献集D ′中标题和主体内容的语义特征，对于文献di，其中的每一条经过划分后的句子和标题句其中nj代表句子j的长度，其初始的语义特征如下所示：其中代表文献di经过句子划分后的第j条句子的第k个token，则代表经由 BERT预训练语言模型输出的向量结果；代表经由BERT预训练语言模型输出的句子级别的向量结果；对于图中的每个节点，其初始特征的获取分别如下所示：代表编号为i的文献所构成的文献节点的初始特征；代表句子节点的初始特征，由其本身的句子级别的特征表示构成；代表指称节点的初始特征，由其所在句子中对应位置token经由均值池化聚合得到，该指称所在的文献id为u＝ sentence_to_paper(sentenc e_id)，该指称所在的相应的句子id为v＝menti on_to_sentence(menti on_id)；代表短语节点的初始特征，由其所有的指称初始特征聚合得到，具体如下所示，其中H代表该短语所具有的指称个数,u ∈{hyper,hypo}； 5.根据权利要求1所述的基于图神经网络的上下位关系抽取方法，其特征在于，所述的步骤1)中，对于一个术语，选择从对应文献中选取NP篇作为建图文本， NP称作最大文献篇数；构建过程面向一对待判别短语，在选取文献时，优先选取两个短语共现的文献。 6.根据权利要求1所述的基于图神经网络的上下位关系抽取方法，其特征在于，所述的步骤2)具体为：进行图中节点的特征表示学习，图的表示学习采用了GNN ‑FiLM算法；每个节点的学习权　利　要　求　书 2/4 页 3 CN 115146626 A 3

专利 基于图神经网络的上下位关系抽取方法

专利基于图神经网络的上下位关系抽取方法