专利 基于规则知识增强的数据关系抽取方法及相关装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210841108.8 (22)申请日 2022.07.18 (71)申请人中国人民解放军国防科技大学地址 410003 湖南省长沙市开福区德雅路 109号 (72)发明人陈洪辉　王梦如　江苗　蔡飞　舒振　郑建明　邵太华　张鑫　宋城宇　 (74)专利代理机构北京风雅颂专利代理有限公司 11403 专利代理师曾志鹏 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/126(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于规则知识增强的数据关系抽取方法及相关装置 (57)摘要本申请提供一种基于规则知识增强的数据关系抽取方法及相关装置；该法包括：根据实例的头实体和尾实体的结构化知识图谱，确定头实体类型集和尾实体类型集，并输入图神经网络编码器，基于实例的关系得到对应的头实体原型和尾实体原型；从各实例的非结构化知识文本中确定关系描述，将该实例和该关系描述输入至文本编码器，得到实例表示和关系描述表示；通过将实例表示和关系描述表示相互作用得到上下文语义和上下文语义原型；分别构建头实体、尾实体类型和上下文语义属于关系的概率关系，据此确定交叉熵损失函数、实例级对比学习损失函数和类别级对比学习损失函数；将三者进行结合得到目标函数，并用于以对待抽取的数据集进行数据关系抽取。权利要求书5页说明书19页附图3页 CN 115186064 A 2022.10.14 CN 115186064 A 1.一种基于规则知识增强的数据关系抽取方法，其特征在于，包括：根据预置的支持集中各实例的头实体和尾实体的结构化知识图谱，分别确定该实例的头实体类型集和尾实体类型集，将该头实体类型集和该尾实体类型集输入预置的图神经网络编码器，并基于该实例的关系，分别得到该头实体和该尾实体对应的头实体原型和尾实体原型；从各所述实例的非结构化知识文本中，确定该实例的关系描述，将该实例和该关系描述输入至预置的文本编码器，得到该实例的实例表示和关系描述表示；通过将该实例表示和该关系描述表示相互作用得到该实例的上下文语义和上下文语义原型；对于各所述实例，基于所述头实体原型、所述尾实体原型和所述上下文语义原型，分别构建所述头实体、所述尾实体类型和所述上下文语义属于所述关系的概率关系，并根据所述概率关系确定交叉熵损失函数；基于该实例的实例表示和其他实例的实例表示，确定实例级对比学习损失函数，基于所述上下文语义原型和获取的所述关系的关系描述原型，确定类别级对比学习损失函数；结合所述交叉熵损失函数、所述实例级对比学习损失函数和所述类别级对比学习损失函数，得到目标函数，将所述目标函数用于关系抽取模型中，以对待抽取的数据进行数据集关系抽取。 2.根据权利要求1所述的方法，其特征在于，所述将该头实体类型集和该尾实体类型集输入预置的图神经网络编码器，并基于该实例的关系，分别得到该头实体和该尾实体对应的头实体原型和尾实体原型，包括：将该头实体类型集中的各头实体类型和该尾实体类型中的各尾实体类型分别输入至所述图神经网络编码器，并得到如下所示的头实体类型表示和尾实体类型表示：其中， f1(*)表示图神经网络编码器的映射方式；为头实体类型表示， Ch表示头实体类型集， c1表示Ch中的任意类型；为尾实体类型表示， Ct表示尾实体类型集， c2表示Ct中的任意类型；分别利用所述头实体类型表示和所述尾实体类型表示，构建如下所示的所述头实体原型和所述尾实体原型：权　利　要　求　书 1/5 页 2 CN 115186064 A 2其中， r表示该实例的任意关系， Sr表示关于该关系r的实例集合， K表示Sr中具备的实例数量；表示所述头实体原型， eh表示头实体，表示所述尾实体原型， et表示尾实体。 3.根据权利要求1所述的方法，其特征在于，所述通过将该实例表示和该关系描述表示相互作用得到该实例的上下文语义和上下文语义原型，包括：将所述头实体和所述尾实体以向量的形式连接，得到如下所示的实体表示：其中，为所述实体表示， R表示全部所述关系对应的全部关系类型， d表示所述文本编码器的嵌入维度；采取如下所示的第一交互方式，将该实例表示和该关系描述表示进行相互作用，得到精细化实例表示：其中，为所述细化实例表示，角标ar表示关于所述关系 r的所述关系描述， αj表示多个实例权重中的第j个实例权重；为所述实例表示，为所述关系描述表示， sum(*)表示行求和函数， [j:]表示矩阵的第j行，角标T表示对矩阵执行转置的操作；采取如下所示的第二交互方式，将该实例表示和该关系描述表示进行相互作用，得到实例感知关系描述表示：其中，为所述实例感知关系描述表示， βj表示多个注意权重中的第j个注意权重；利用所述精细化实例表示和所述实例感知关系描述表示，采用如下所述的公式，确定上下文语义：其中，为所述上下文语义表示， Mul(*)表示多层感知器；采用如下所述的公式表示所述上下文语义原型：其中，表示所述上下文语义原型。权　利　要　求　书 2/5 页 3 CN 115186064 A 3

专利 基于规则知识增强的数据关系抽取方法及相关装置

专利基于规则知识增强的数据关系抽取方法及相关装置