说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210850051.8 (22)申请日 2022.07.20 (71)申请人 中译语通科技股份有限公司 地址 100040 北京市石景山区石景山路20 号16层16 01 (72)发明人 蔡超 严凤兵 郝雁华 程国艮  (74)专利代理 机构 北京万贝专利代理事务所 (特殊普通 合伙) 11520 专利代理师 代亚欣 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/279(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于信息融合的跨语言实体对齐方法、 系 统、 设备及 介质 (57)摘要 本发明属于人工智能技术领域, 公开了一种 基于信息融合的跨语言实体对齐方法、 系统、 设 备及介质, 包括: 基于属性信息融合的向量空间 映射, 基于图神经网络的邻居实体融合, 基于迭 代关系共现的实体对齐。 本发明通过融合属性信 息对实体进行了向量空间映射, 使用图卷积神经 网络提取实体的邻居信息, 最后利用半监督的迭 代神经网络实现跨语言的对齐, 相较于传统实体 对齐技术具有更强的语义表征能力和对齐方法 具有跨语言能力。 本发明通过迭代神经网络实现 了基于信息融合的跨语言实体对齐, 判断知 识库 中的两个实体是否为真实世界的同一实体有效 地提高了实体对齐的准确率和召回率, 解决了不 同语种知识结构化统一描述问题。 权利要求书3页 说明书8页 附图3页 CN 115186106 A 2022.10.14 CN 115186106 A 1.一种基于信息融合的跨语言实体对齐方法, 其特征在于, 所述基于信息融合的跨语 言实体对齐方法包括: 首先使用结构向量表示实体的所有属性三元组从而得到实体属性向 量, 然后使用图神经网络计算中心实体的邻居信息, 然后将重要的邻居信息融入中心实体 向量, 最后使用迭代神经网络学习对齐实体的实体信息和邻居信息, 得到实体对齐模型。 2.如权利要求1所述的基于信 息融合的跨语言实体对齐方法, 其特征在于, 所述基于属 性信息的向量空间映射, 是从知识图谱中获取属 性三元组信息后, 将实体的属 性信息全部 融入实体中, 获得实体属性向量; 所述基于 图神经网络的邻居实体融合, 是以知识图谱中实体之间的关系为基础, 以图 神经网络, 计算实体的邻居实体对中心实体的贡献, 获得实体的邻居注意力分值; 所述基于迭代关系共现的实体对齐, 是将邻居注意力分值高于 阈值的部分融入中心实 体向量后, 使用迭代神经网络模型结合实体 向量和邻居注意力分数, 计算不同实体的对齐 分数, 对比对齐阈值, 得到实体对齐结果。 3.如权利要求1所述的基于信 息融合的跨语言实体对齐方法, 其特征在于, 所述基于信 息融合的跨语言实体对齐方法包括以下步骤: 步骤一, 根据跨语言通用领域文本数据, 通过信息抽取获得知识图谱数据, 获取大量通 用领域待对齐知识图谱数据; 步骤二, 根据预先对齐的跨语言实体, 利用知识图谱中的结构信 息训练结构向量, 进而 拟合两个知识图谱之间的几何结构; 步骤三, 将对齐实体的属性信息 融合到实体 中, 获取更加丰富的表示, 将 实体的属性全 部视为对齐实体的相关属 性, 并利用权重参数调节相同范围类型 的属性, 得到融合属 性向 量; 步骤四, 通过邻居信 息对中心实体的描述贡献, 根据实体关系信 息, 利用事先建立的注 意力模型, 对中心实体对邻居实体注意力打 分, 得到所有实体相应的邻居注意力分数值; 步骤五, 将注意力分数值与预设的噪音实体阈值进行比较, 并基于每个中心实体判断 是否存在邻居注意力分数小于所述噪音实体阈值; 若是, 则输出注意力分数, 并舍弃融入中心实体; 若否, 则将邻居实体信息通过注意力 分数融入到中心实体向量上, 并转向步骤六; 步骤六, 根据预先建立的实体对齐模型, 分别对所述实体向量以及对方实体库所有实 体计算对齐分数, 得到相应的实体对齐分值; 步骤七, 将所述实体对齐分值与预设的实体对齐阈值进行比较, 并判断是否存在所述 实体对齐分值小于所述实体对齐阈值; 若是, 则将所述实体对齐分值输出; 若否, 则将对应的不同知识图谱的实体数据信 息加 入对齐实体库。 4.如权利要求3所述的基于信 息融合的跨语言实体对齐方法, 其特征在于, 所述步骤一 中的知识图谱数据包括母语各类百科数据和非母语各类百科数据; 所述待对齐知识图谱数 据包括实体名称、 实体摘要信息、 实体关系信息以及实体属性信息; 执行所述步骤二之前还包括: 通过负样例减少不同知识库中相似实体的对齐错误和巧 合的发生; 所述步骤二中, 给定一个关系三元组, 距离函数为:权 利 要 求 书 1/3 页 2 CN 115186106 A 2其中, h表示头实体, r 表示关系, t 表示尾实体。 5.如权利要求3所述的基于信 息融合的跨语言实体对齐方法, 其特征在于, 所述步骤三 中的属性类型包括四种抽象范围类型: Integer、 Double、 Datetime和String, 对于相同类型 的数据会获得 更高的权 重; 利用训练得 出的属性向量 求和平均 作为实体的属性向量, 并最小化以下损失函数: 其中, S代表不同知识图谱之间的属性向量相乘所得的相似度, E矩阵就是步骤二求出 的结构向量。 6.如权利要求3所述的基于信 息融合的跨语言实体对齐方法, 其特征在于, 所述步骤四 中, 若节点j是节点i的邻居, 则使用Attention机制计算节点j对于节点i的重要性, 则注意 力分数: ei, j=Attention(Whi, Whj); 其中, W为需要参数矩阵, h为 步骤三最后的融合向量; 所述步骤六中, 衡量两个实体距离公式如下: P(r1, r2, n1, n2)=P(r1, n1)·P(r2, n2); 其中, 是待对齐的实体, P分数是对齐邻居实体以及对齐关系对候选实体对造成 的影响系数, λ是需要学习的超参数; 对于来自不同知识图谱的两个关系, 头部实体和尾部实体在 关联的三元组中同时对齐 的越多, 两个关系具有相同含义的可能性越大, 关系对齐的公式为: 其中, λ是需要学习的超参数, r表示关系向量, S表示关系的所有头尾实体对, M表示已 对齐的实体。 7.一种实施权利要求1~6任意一项所述的基于信息融合的跨语言实体对齐方法的基 于信息融合的跨语言实体对齐系统, 其特征在于, 所述基于信息融合的跨语言实体对齐系 统包括: 向量空间映射模块, 用于从知识图谱中获取属性三元组信息后, 将实体的属性信息全 部融入实体中, 获得实体属性向量; 邻居实体 融合模块, 用于以知识图谱中实体之间的关系为基础, 以图神经网络, 计算实 体的邻居实体对中心实体的贡献, 获得实体的邻居注意力分值; 实体对齐模块, 用于将邻居注意力分值高于阈值的部分融入中心实体向量后, 使用迭权 利 要 求 书 2/3 页 3 CN 115186106 A 3

.PDF文档 专利 基于信息融合的跨语言实体对齐方法、系统、设备及介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于信息融合的跨语言实体对齐方法、系统、设备及介质 第 1 页 专利 基于信息融合的跨语言实体对齐方法、系统、设备及介质 第 2 页 专利 基于信息融合的跨语言实体对齐方法、系统、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。