(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210741240.1
(22)申请日 2022.06.28
(71)申请人 有米科技股份有限公司
地址 510006 广东省广州市番禺区小谷围
街青蓝街26号1701
(72)发明人 黄于晏 杨辰
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 江银会
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06F 16/36(2019.01)
(54)发明名称
基于无监督训练的词 向量模型生成方法及
装置
(57)摘要
本发明公开了一种基于无监督训练的词 向
量模型生成方法及装置, 该方法包括: 对所收集
到的每段训练文本进行文本向量化处理, 得到处
理后的所有训练文本; 基于所需训练的初始模型
以及处理后的所有训练文本, 对初始模型进行模
型训练, 得到训练后的初始模型; 判断训练后的
初始模型是否收敛, 若是, 则将收敛后的初始模
型确定为词向量模型。 可见, 实施本发明能够训
练出可以提取动态词向量的词向量模 型, 使得从
文本中所提取出来的词向量承 载有丰富的词意,
这样, 有利于解决当前方法所存在的提取出来的
词向量的词意单一 以及该词向量不会根据上下
文而发生动态变化的问题, 进而有利于提高所提
取出来的词向量的准确性, 从而有利于后续对文
本作准确的语境分析。
权利要求书3页 说明书15页 附图5页
CN 115238682 A
2022.10.25
CN 115238682 A
1.一种基于无监 督训练的词向量模型生成方法, 其特 征在于, 所述方法包括:
对所收集到的每段训练文本进行文本向量 化处理, 得到处 理后的所有所述训练文本;
基于所需训练 的初始模型以及处理后的所有所述训练文本, 对所述初始模型执行模型
训练操作, 得到训练后的所述初始模型;
判断训练后的所述初始模型是否收敛, 若是, 则将收敛后的所述初始模型确定为词向
量模型; 所述词向量模型用于提取文本的词向量, 所述文本的词向量承载有所述文本的语
义信息、 语法信息以及词序信息中的至少一种。
2.根据权利要求1所述的基于无监督训练的词向量模型生成方法, 其特征在于, 所述对
所收集到的每段训练文本进行文本向量 化处理, 得到处 理后的所有所述训练文本, 包括:
对所收集到的每段训练文本执行字切分操作, 得到每段所述训练文本的所有目标字;
每段所述训练文本包括至少一个目标句, 每 个所述目标句存在至少一个所述目标字;
对每段所述训练文本的所有所述目标字执行预设维度的字向量转换操作, 得到每段所
述训练文本的所有所述目标字的字向量;
将每段所述训练文本中的每个所述目标句对应的所有所述目标字的字向量进行拼接,
得到每段 所述训练文本的每 个所述目标句的句向量;
基于每段所述训练文本的所有所述目标句的句向量, 确定每段所述训练文本的文本向
量。
3.根据权利要求2所述的基于无监督训练的词向量模型生成方法, 其特征在于, 所述基
于每段所述训练文本中的所有所述 目标句的句向量, 确定每段所述训练文本的文本 向量,
包括:
对于每段所述训练文本的每个所述目标句, 确定该目标句 的句向量所对应的特征维
度, 并根据该目标句的句向量所对应的特征维度, 确定该目标句的位置编 码向量; 该目标句
的位置编码向量用于表示该目标句对应的每 个所述目标字在该目标句中的位置信息;
将该目标句的位置编码向量与该目标句的句向量进行向量叠加, 得到叠加后的该目标
句的句向量, 并确定叠加后的该目标句对应的标识添置参数; 所述标识添置参数包括需要
在叠加后的该目标句中进行标识添置的添置位置和/或语义标识, 所述语义标识用于表示
该目标句的语义信息;
根据所述标识添置参数, 对叠加后的该目标句进行标识添置, 以更新叠加后的该目标
句的句向量, 并将所得到的叠加后的所有所述 目标句的句向量, 确定为该段训练文本的文
本向量。
4.根据权利要求1 ‑3任一项所述的基于无监督训练的词向量模型生成方法, 其特征在
于, 所述基于所需训练的初始模型以及处理后的所有所述训练文本, 对所述初始模型执行
模型训练操作, 得到训练后的所述初始模型, 包括:
从处理后的所有所述训练文本 中确定出所有目标训练文本, 并基于所有所述目标训练
文本, 对所述初始模型 执行模型训练操作, 得到训练后的所述初始模型;
以及, 所述方法还 包括:
当判断出训练后的所述初始模型不收敛时, 将上一 次训练后的所述初始模型更新为所
述初始模型, 并触发执行所述的从处理后的所有所述训练文本中确定出所有目标训练文
本, 并基于所有所述目标训练文本, 对 所述初始模 型执行模型训练操作, 得到训练后的所述权 利 要 求 书 1/3 页
2
CN 115238682 A
2初始模型的操作。
5.根据权利要求4所述的基于无监督训练的词向量模型生成方法, 其特征在于, 所述基
于所有所述 目标训练文本, 对所述初始模型执行模型训练操作, 得到训练后的所述初始模
型, 包括:
将所有所述目标训练文本输入至所述初始模型中, 并通过所述初始模型的变换层以及
第一预设文本变换方式, 从所有 所述目标训练文本中确定出所需变换的所有待变换训练文
本;
通过所述初始模型的变换层以及第 二预设文本变换方式, 对每个所述待变换训练文本
执行文本变换操作, 得到所有待分析训练文本; 所述第二预设文本变换方式包括至少一个
文本掩藏变换方式, 每个所述文本掩藏变换方式存在对应的预设变换标识, 每个所述文本
掩藏变换 方式对应的预设变换 标识用于对每 个所述待变换训练文本进行文本变换;
基于所有所述待分析训练文本, 对所述初始模型执行模型训练操作, 得到训练后的所
述初始模型。
6.根据权利要求5所述的基于无监督训练的词向量模型生成方法, 其特征在于, 所述基
于所有所述待分析训练文本, 对所述初始模型执行模型训练操作, 得到训练后的所述初始
模型, 包括:
将所有所述待分析训练文本的文本向量输入至所述初始模型的编码器中, 以使所述初
始模型的编 码器根据每段所述待分析训练文本的文本向量, 提取每段所述待分析训练文本
的语言信息; 每段所述待分析训练文本的语言信息包括该待分析训练文本的词序信息和/
或语义信息;
在所述初始模型的编码器提取完毕所有所述待分析训练文本的语言信 息之后, 将所有
所述待分析训练文本的语言信息输入至所述初始模型的解码 器中, 以使 所述初始模型的解
码器根据所有 所述待分析训练文本的语言信息, 对所有所述待分析训练文本执行文本解码
重构操作;
获取所述初始模型的解码器解码重构后的所有所述待分析训练文本, 作为训练后的所
述初始模型。
7.根据权利要求6所述的基于无监督训练的词向量模型生成方法, 其特征在于, 所述判
断训练后的所述初始模型 是否收敛, 包括:
确定训练后的所述初始模型的当前训练轮次, 并判断所述当前训练轮次是否大于等于
预设训练次数阈值;
当判断出所述当前训练轮次大于等于所述预设训练次数阈值 时, 确定训练后的所述初
始模型收敛;
当判断出所述当前训练轮次小于所述预设训练次数阈值 时, 基于解码重构后的所有所
述待分析训练文本, 计算解码重构后的所有 所述待分析训练文本与所有 所述待分析训练文
本之间的重构损失参数, 并判断所述重构损失参数 是否小于预设重构损失参数阈值;
当判断出所述重构损失参数小于所述预设重构损失参数阈值 时, 确定训练后的所述初
始模型收敛。
8.一种基于无监 督训练的词向量模型生成装置, 其特 征在于, 所述装置包括:
处理模块, 用于对所收集到的每段训练文本进行文本向量化处理, 得到处理后的所有权 利 要 求 书 2/3 页
3
CN 115238682 A
3
专利 基于无监督训练的词向量模型生成方法及装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:58:26上传分享