(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210691092.7
(22)申请日 2022.06.17
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 戴松泰 姜文斌 孙卓 吕雅娟
(74)专利代理 机构 北京英赛 嘉华知识产权代理
有限责任公司 1 1204
专利代理师 王达佐 马晓亚
(51)Int.Cl.
G06F 16/335(2019.01)
G06F 16/36(2019.01)
G06F 40/295(2020.01)
G06N 3/08(2006.01)
G06N 20/00(2019.01)
(54)发明名称
语料筛选方法和装置、 电子设备、 计算机可
读介质
(57)摘要
本公开提供了一种语料筛选方法和装置, 涉
及知识图谱、 自然语言处理、 深度学习等人工智
能技术领域。 具体实现方案为: 从获取的候选语
料集中选 取目标领域的文本样 本集; 基于文本样
本集和预先构建的语言网络, 训练得到语言模
型, 语言模 型用于根据当前输入文本中的输入内
容, 预测与输入内容相邻的下一个文本单元为预
设词表中文本的概率分布; 基于语言模型, 确定
候选语料集中各个候选语料属于目标领域的概
率; 基于各个候选语料属于目标领域的概率, 筛
选候选语料集得到第一筛选结果。 该实施方式提
高了目标领域语料筛 选的准确性。
权利要求书3页 说明书12页 附图4页
CN 115048505 A
2022.09.13
CN 115048505 A
1.一种语料筛 选方法, 所述方法包括:
从获取的候选语料集中选取目标 领域的文本样本集;
基于所述文本样本集和预先构建的语言网络, 训练得到语言模型, 所述语言模型用于
根据当前输入文本中的输入内容, 预测与所述输入内容相 邻的下一个文本单元为预设词表
中文本的概 率分布;
基于所述语言模型, 确定所述 候选语料集中各个候选语料属于所述目标 领域的概 率;
基于各个候选语料属于所述目标领域的概率, 筛选所述候选语料集得到第一筛选结
果。
2.根据权利要求1所述的方法, 其中, 所述语言网络为解码器, 所述基于所述文本样本
集和预先构建的语言网络, 训练得到语言模型, 包括:
从所述文本样本集中选取文本样本, 所述文本样本包括至少一个单 元样本;
将起始符加选取的文本样本以及结束符依次输入所述解码器, 得到所述解码器输出的
选取的文本样本中的各个单元样本对应的概率分布, 所述概率分布为所述文本样本集中文
本单元为预测结果的预测概 率;
响应于所述 解码器满足训练完成条件, 得到语言模型。
3.根据权利要求1所述的方法, 其中, 所述基于所述语言模型, 确定所述候选语料集中
各个候选语料属于所述目标 领域的概 率, 包括:
针对所述候选语料集中的各个候选语料, 将起始符、 该候选语料以及结束符依次输入
所述语言模型, 得到对应该候选语料的各个候选 字的概率分布;
基于对应各个候选 字的概率分布, 得到各个候选 字的概率;
基于该候选语料的所有候选字的概率, 计算得到该候选语料属于所述目标领域的概
率。
4.根据权利要求3所述的方法, 其中, 所述基于该候选语料的所有候选字的概率, 计算
得到该候选语料属于所述目标 领域的概 率, 包括:
将该候选语料的所有候选 字的概率相乘, 得到该候选语料属于所述目标 领域的概 率。
5.根据权利要求1 ‑4之一所述的方法, 其中, 所述基于各个候选语料属于所述目标领域
的概率, 筛选所述候选语料集得到第一筛 选结果, 包括:
响应于所述候选语料集中的候选语料属于所述目标领域的概率大于或等于概率阈值,
将该候选语料作为第一筛 选结果中的候选语料。
6.根据权利要求1所述的方法, 所述方法还 包括:
基于所述文本样本集和非目标领域的文本集, 训练得到相似比较模型, 所述相似比较
模型用于判断两个输入文本之间的相似度;
从所述文本样本集选取文本样本;
将选取的文本样本和所述第 一筛选结果中的各个候选语料输入所述相似比较模型, 得
到各个候选语料与所述文本样本的相似度;
基于所述相似度, 得到第二筛 选结果。
7.根据权利要求6所述的方法, 其中, 所述基于所述文本样本集和非目标领域的文本
集, 训练得到相似比较模型, 包括:
从所述文本样本集选取任意两个文本样本进行拼接, 得到正样本;权 利 要 求 书 1/3 页
2
CN 115048505 A
2从所述非 目标领域的文本集中随机选取文本, 将所述文本样本集中的一个文本样本与
选取的文本进行拼接, 得到负 样本;
基于所述正样本与 所述负样本训练相似比较网络, 所述相似比较网络的输入为两种 文
本, 输出为所述两种文本之间的相似度值;
响应于所述相似比较网络满足训练完成条件, 得到相似比较模型。
8.根据权利要求6或7 所述的方法, 所述方法还 包括:
对所述第二筛选结果中的候选语料进行命名实体识别, 得到各个候选语料中的命名实
体序列;
基于预先构建的目标领域的知识图谱, 计算各个候选语料的命名实体序列中 图谱实体
占比值;
基于所述占比值, 对所述第二筛 选结果进行筛 选, 得到第三筛 选结果。
9.根据权利要求1所述的方法, 所述方法包括:
基于所述文本样本集和非目标领域的文本集, 训练得到语料筛选模型, 所述语料筛选
模型用于判断输入文本属于目标 领域的概 率;
将所述第一筛选结果中的各个候选语料输入所述语料筛选模型, 得到各个候选语料属
于目标领域的概 率;
基于各个候选语料属于目标 领域的概 率, 得到第四筛 选结果。
10.一种语料筛 选装置, 所述装置包括:
集合选取单元, 被配置成从获取的候选语料集中选取目标 领域的文本样本集;
语言训练单元, 被配置成基于所述文本样本集和预先构建的语言网络, 训练得到语言
模型, 所述语言模型用于根据当前输入文本中的输入内容, 预测与所述输入内容相邻的下
一个文本单 元为预设词表中文本的概 率分布;
确定单元, 被配置成基于所述语言模型, 确定所述候选语料集中各个候选语料属于所
述目标领域的概 率;
筛选单元, 被配置成基于各个候选语料属于所述目标领域的概率, 筛选所述候选语料
集得到第一筛 选结果。
11.根据权利要求10所述的装置, 其中, 所述语言网络为解码器, 所述语言训练单元被
配置成: 从所述文本样本集中选取文本样本, 所述文本样 本包括至少一个单元样本; 将起始
符加选取的文本样本以及结束符依次输入所述解码器, 得到所述解码器输出的选取的文本
样本中的各个单元样本对应的概率分布, 所述概率分布为所述文本样本集中文本单元为预
测结果的预测概 率; 响应于所述 解码器满足训练完成条件, 得到语言模型。
12.根据权利要求10所述的装置, 其中, 所述确定单元被配置成: 针对所述候选语料集
中的各个候选语料, 将起始符、 该候选语料以及结束符依次输入所述语 言模型, 得到对应该
候选语料 的各个候选字的概率分布; 基于对应各个候选字的概率分布, 得到各个候选字的
概率; 基于该候选语料 的所有候选字的概率, 计算得到该候选语料属于所述 目标领域的概
率。
13.根据权利要求12所述的装置, 其中, 所述确定单元进一步被配置成: 将该候选语料
的所有候选 字的概率相乘, 得到该候选语料属于所述目标 领域的概 率。
14.根据权利要求10 ‑13之一所述的装置, 其中, 所述筛选单元被配置成: 响应于所述候权 利 要 求 书 2/3 页
3
CN 115048505 A
3
专利 语料筛选方法和装置、电子设备、计算机可读介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:01:20上传分享