说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210733201.7 (22)申请日 2022.06.27 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 毛存礼 杨振平 余正涛 黄于欣  高盛祥 张勇丙  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多层标注策略的跨境民族文化实体关 系抽取方法及装置 (57)摘要 本发明涉及基于多层标注策略的跨境民族 文化实体关系抽取方法及装置, 属于自然语言处 理技术领域。 跨境民族文化领域文本中实体关系 特征主要体 现在单个实体重叠关系、 实体对重叠 关系以及 多个实体对关系, 在 文本中还存在大量 的领域词语问题, 本发明提出了一种多层标注策 略的跨境民族文化实体关系抽取方法, 包括跨境 民族文化实体关系数据标注和处理、 基于多层标 注的实体关系标注策略方法、 基于多层标注策略 的跨境民族文化实体关系抽取模 型构成。 根据这 三个功能模块化制成基于多层标注策略的跨境 民族文化实体关系抽取装置, 对输入的句子进行 实体关系联合抽取, 本发明解决了跨境民族文化 中重叠实体关系的问题。 权利要求书3页 说明书10页 附图2页 CN 114970537 A 2022.08.30 CN 114970537 A 1.基于多层标注策略的跨 境民族文化实体关系抽取 方法, 其特 征在于: 所述基于多层标注策略的跨 境民族文化实体关系抽取 方法的具体步骤如下: Step1、 结合跨境民族文化领域特点定义了若干种关系类型, 设计标注格式标注句子中 的实体对及对应的关系; Step2、 采用融入领域词信息的方法增强预训练模型表征后的字符向量, 通过领域词典 对跨境民族文化语料进行分词并训练得到领域词向量, 设计了卷积神经网络编 码提取输入 文本中的领域信息并将其融入到预训练模型输出的字符向量中; Step3、 跨境民族文化实体关系抽取需要先识别出文本中所有 的头实体确保后续在所 有关系条件下的尾实体识别, 利用双层标注 方式分别对头实体的开始位置和结束位置进 行 标注; Step4、 利用多层标注策略提取实体关系三元组, 多层标注方式针对每一种预定义的关 系类型下实体进行标注预测, 预测每一种关系 下对应尾实体的开始位置与终止位置, 最终 缓解跨境民族文化实体关系抽取中存在的实体关系重 叠问题。 2.根据权利要求1所述的基于多层标注策略的跨境民族文化实体关系抽取方法, 其特 征在于: 所述Step1的具体步骤为: Step1.1、 通过百科词条和跨境民族相关网站 获取跨境民族文化数据, 数据进行预处理 操作; 然后标注了包含实体关系三元组的跨境民族文化句 子, 关系类型包含若干种关系类 型; Step1.2、 采用{头实体, 关系, 尾实体}的标注格式标注句子中的实体对及对应的关系; Step1.3、 采用预训练语言模型对跨境民族文化文本进行字符向量表征, 将字符进行处 理, 然后输入到预训练语言模型中得到输入文本的每个字符的向量表示; 跨境民族文化句 子被视为字符序列S={c1,c2,…,cn}∈Vc, 其中Vc是字符级的词汇表, ci表示在长度为n的句 子S中第i个字符, 预训练语言模型的思想对跨境民族文化实体每个字符ci进行字向量表 示: Q=ci×WQ,K=ci×WK,V=ci×WV, 其中, WQ,WK,WV表示权重参数, dk为输入特征向量的维度, Softm ax为归一化操作, gi表示 跨境民族文化字符文本向量表征。 3.根据权利要求1所述的基于多层标注策略的跨境民族文化实体关系抽取方法, 其特 征在于: 所述Step2的具体步骤为: Step2.1、 通过融合领域词典信息的方式对文本中字符向量领域知识信息增强, 利用领 域词典对文本进行分词, 分词后匹配预训练的词向量得到领域词向量矩阵E; Step2.2、 设计了多层卷积编码器提取领域词典信息特征编码表示, 其目的是提取领域 词典中词语信息的语义知识; 通过卷积编 码器对词向量进 行卷积操作提取领域词典信息特 征编码, 其中卷积操作是利用滑动窗口对词向量进行局部特征的编码, 通过设置卷积核大 小来提取文本的h ‑gram特征, 最终得到 了领域信息的表示: ci=f(Wc·E[i:i+h]+bc),权 利 要 求 书 1/3 页 2 CN 114970537 A 2C=[c1,c2,...,cn‑h+1], 其中, 为偏置向量, 为训练参数矩阵, E为词向量矩阵; Step2.3、 在字符向量表示中融入领域词典信息保留文本中的领域信息, 将每个字符向 量与Step2.2中的领域信息表示融合成一个特 征向量, 共同构成最终表示: xi=[gi; zi]. 其中, zi为Step2.2中得到的领域信息表示, gi为字符向量。 4.根据权利要求1所述的基于多层标注策略的跨境民族文化实体关系抽取方法, 其特 征在于: 所述Step3的具体步骤为: Step3.1、 通过双层标注方法对头实体的位置进行标注, 标注文本中所有头实体片段以 确保后续在所有关系条件下的尾实体标注质量; 预测跨境民族文化文本中所有头实体的开 始位置概 率和结束位置概 率, 计算公式如下: 其中hi表示Bi‑LSTM输出的特征向量, 表示输入序列第i个字符为头实体开始位 置概率, 表示输入序列第i个字符为头实体结尾位置概率, Wstart,bstart,Wend,bend为训 练参数矩阵和偏置向量, σ( ·)为sigmo id激活函数; Step3.2、 如果句子中存在多个头实体, 只有满足开始位置和结束位置自然连续性, 才 能被正确检测为给定的句子中实体跨度, 从输入文本中标注头实体的概 率如公式所示: 其中L是句子的长度, θ为训练参数; 当 时, 则文本中第i个字符标注为1, 否则为0; 当 时, 则表示句子中第i个字符标注为头实体开始位置标签; 当 时, 则表 示句子中第i个字符标注为头实体结束位置标签。 5.根据权利要求1所述的基于多层标注策略的跨境民族文化实体关系抽取方法, 其特 征在于: 所述Step4的具体步骤为: Step4.1、 针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题, 通过多层标 注方法将头实体对应的特征向量 融入到Bi ‑LSTM输出的特征向量中以增强模 型整体的依 赖性, 更好地标注关系对应的尾实体位置; 输入向量融合了已标注出的头实体向量, 预测所 有头实体对应关系下的尾实体开始位置概 率和结束位置概 率: 其中hi表示Bi‑LSTM输出的特征向量, 表示所有头实体向量表征, 表示输入文权 利 要 求 书 2/3 页 3 CN 114970537 A 3

.PDF文档 专利 基于多层标注策略的跨境民族文化实体关系抽取方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 第 1 页 专利 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 第 2 页 专利 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:58:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。