(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210733201.7
(22)申请日 2022.06.27
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 毛存礼 杨振平 余正涛 黄于欣
高盛祥 张勇丙
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06F 16/33(2019.01)G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多层标注策略的跨境民族文化实体关
系抽取方法及装置
(57)摘要
本发明涉及基于多层标注策略的跨境民族
文化实体关系抽取方法及装置, 属于自然语言处
理技术领域。 跨境民族文化领域文本中实体关系
特征主要体 现在单个实体重叠关系、 实体对重叠
关系以及 多个实体对关系, 在 文本中还存在大量
的领域词语问题, 本发明提出了一种多层标注策
略的跨境民族文化实体关系抽取方法, 包括跨境
民族文化实体关系数据标注和处理、 基于多层标
注的实体关系标注策略方法、 基于多层标注策略
的跨境民族文化实体关系抽取模 型构成。 根据这
三个功能模块化制成基于多层标注策略的跨境
民族文化实体关系抽取装置, 对输入的句子进行
实体关系联合抽取, 本发明解决了跨境民族文化
中重叠实体关系的问题。
权利要求书3页 说明书10页 附图2页
CN 114970537 A
2022.08.30
CN 114970537 A
1.基于多层标注策略的跨 境民族文化实体关系抽取 方法, 其特 征在于:
所述基于多层标注策略的跨 境民族文化实体关系抽取 方法的具体步骤如下:
Step1、 结合跨境民族文化领域特点定义了若干种关系类型, 设计标注格式标注句子中
的实体对及对应的关系;
Step2、 采用融入领域词信息的方法增强预训练模型表征后的字符向量, 通过领域词典
对跨境民族文化语料进行分词并训练得到领域词向量, 设计了卷积神经网络编 码提取输入
文本中的领域信息并将其融入到预训练模型输出的字符向量中;
Step3、 跨境民族文化实体关系抽取需要先识别出文本中所有 的头实体确保后续在所
有关系条件下的尾实体识别, 利用双层标注 方式分别对头实体的开始位置和结束位置进 行
标注;
Step4、 利用多层标注策略提取实体关系三元组, 多层标注方式针对每一种预定义的关
系类型下实体进行标注预测, 预测每一种关系 下对应尾实体的开始位置与终止位置, 最终
缓解跨境民族文化实体关系抽取中存在的实体关系重 叠问题。
2.根据权利要求1所述的基于多层标注策略的跨境民族文化实体关系抽取方法, 其特
征在于: 所述Step1的具体步骤为:
Step1.1、 通过百科词条和跨境民族相关网站 获取跨境民族文化数据, 数据进行预处理
操作; 然后标注了包含实体关系三元组的跨境民族文化句 子, 关系类型包含若干种关系类
型;
Step1.2、 采用{头实体, 关系, 尾实体}的标注格式标注句子中的实体对及对应的关系;
Step1.3、 采用预训练语言模型对跨境民族文化文本进行字符向量表征, 将字符进行处
理, 然后输入到预训练语言模型中得到输入文本的每个字符的向量表示; 跨境民族文化句
子被视为字符序列S={c1,c2,…,cn}∈Vc, 其中Vc是字符级的词汇表, ci表示在长度为n的句
子S中第i个字符, 预训练语言模型的思想对跨境民族文化实体每个字符ci进行字向量表
示:
Q=ci×WQ,K=ci×WK,V=ci×WV,
其中, WQ,WK,WV表示权重参数, dk为输入特征向量的维度, Softm ax为归一化操作, gi表示
跨境民族文化字符文本向量表征。
3.根据权利要求1所述的基于多层标注策略的跨境民族文化实体关系抽取方法, 其特
征在于: 所述Step2的具体步骤为:
Step2.1、 通过融合领域词典信息的方式对文本中字符向量领域知识信息增强, 利用领
域词典对文本进行分词, 分词后匹配预训练的词向量得到领域词向量矩阵E;
Step2.2、 设计了多层卷积编码器提取领域词典信息特征编码表示, 其目的是提取领域
词典中词语信息的语义知识; 通过卷积编 码器对词向量进 行卷积操作提取领域词典信息特
征编码, 其中卷积操作是利用滑动窗口对词向量进行局部特征的编码, 通过设置卷积核大
小来提取文本的h ‑gram特征, 最终得到 了领域信息的表示:
ci=f(Wc·E[i:i+h]+bc),权 利 要 求 书 1/3 页
2
CN 114970537 A
2C=[c1,c2,...,cn‑h+1],
其中,
为偏置向量,
为训练参数矩阵, E为词向量矩阵;
Step2.3、 在字符向量表示中融入领域词典信息保留文本中的领域信息, 将每个字符向
量与Step2.2中的领域信息表示融合成一个特 征向量, 共同构成最终表示:
xi=[gi; zi].
其中, zi为Step2.2中得到的领域信息表示, gi为字符向量。
4.根据权利要求1所述的基于多层标注策略的跨境民族文化实体关系抽取方法, 其特
征在于: 所述Step3的具体步骤为:
Step3.1、 通过双层标注方法对头实体的位置进行标注, 标注文本中所有头实体片段以
确保后续在所有关系条件下的尾实体标注质量; 预测跨境民族文化文本中所有头实体的开
始位置概 率和结束位置概 率, 计算公式如下:
其中hi表示Bi‑LSTM输出的特征向量,
表示输入序列第i个字符为头实体开始位
置概率,
表示输入序列第i个字符为头实体结尾位置概率, Wstart,bstart,Wend,bend为训
练参数矩阵和偏置向量, σ( ·)为sigmo id激活函数;
Step3.2、 如果句子中存在多个头实体, 只有满足开始位置和结束位置自然连续性, 才
能被正确检测为给定的句子中实体跨度, 从输入文本中标注头实体的概 率如公式所示:
其中L是句子的长度, θ为训练参数; 当
时, 则文本中第i个字符标注为1, 否则为0;
当
时, 则表示句子中第i个字符标注为头实体开始位置标签; 当
时, 则表
示句子中第i个字符标注为头实体结束位置标签。
5.根据权利要求1所述的基于多层标注策略的跨境民族文化实体关系抽取方法, 其特
征在于: 所述Step4的具体步骤为:
Step4.1、 针对跨境民族文化实体关系抽取中所存在的实体关系重叠问题, 通过多层标
注方法将头实体对应的特征向量
融入到Bi ‑LSTM输出的特征向量中以增强模 型整体的依
赖性, 更好地标注关系对应的尾实体位置; 输入向量融合了已标注出的头实体向量, 预测所
有头实体对应关系下的尾实体开始位置概 率和结束位置概 率:
其中hi表示Bi‑LSTM输出的特征向量,
表示所有头实体向量表征,
表示输入文权 利 要 求 书 2/3 页
3
CN 114970537 A
3
专利 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:58:05上传分享