专利 语料筛选方法和装置、电子设备、计算机可读介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210691092.7 (22)申请日 2022.06.17 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人戴松泰　姜文斌　孙卓　吕雅娟　 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 1 1204 专利代理师王达佐　马晓亚 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称语料筛选方法和装置、电子设备、计算机可读介质 (57)摘要本公开提供了一种语料筛选方法和装置，涉及知识图谱、自然语言处理、深度学习等人工智能技术领域。具体实现方案为：从获取的候选语料集中选取目标领域的文本样本集；基于文本样本集和预先构建的语言网络，训练得到语言模型，语言模型用于根据当前输入文本中的输入内容，预测与输入内容相邻的下一个文本单元为预设词表中文本的概率分布；基于语言模型，确定候选语料集中各个候选语料属于目标领域的概率；基于各个候选语料属于目标领域的概率，筛选候选语料集得到第一筛选结果。该实施方式提高了目标领域语料筛选的准确性。权利要求书3页说明书12页附图4页 CN 115048505 A 2022.09.13 CN 115048505 A 1.一种语料筛选方法，所述方法包括：从获取的候选语料集中选取目标领域的文本样本集；基于所述文本样本集和预先构建的语言网络，训练得到语言模型，所述语言模型用于根据当前输入文本中的输入内容，预测与所述输入内容相邻的下一个文本单元为预设词表中文本的概率分布；基于所述语言模型，确定所述候选语料集中各个候选语料属于所述目标领域的概率；基于各个候选语料属于所述目标领域的概率，筛选所述候选语料集得到第一筛选结果。 2.根据权利要求1所述的方法，其中，所述语言网络为解码器，所述基于所述文本样本集和预先构建的语言网络，训练得到语言模型，包括：从所述文本样本集中选取文本样本，所述文本样本包括至少一个单元样本；将起始符加选取的文本样本以及结束符依次输入所述解码器，得到所述解码器输出的选取的文本样本中的各个单元样本对应的概率分布，所述概率分布为所述文本样本集中文本单元为预测结果的预测概率；响应于所述解码器满足训练完成条件，得到语言模型。 3.根据权利要求1所述的方法，其中，所述基于所述语言模型，确定所述候选语料集中各个候选语料属于所述目标领域的概率，包括：针对所述候选语料集中的各个候选语料，将起始符、该候选语料以及结束符依次输入所述语言模型，得到对应该候选语料的各个候选字的概率分布；基于对应各个候选字的概率分布，得到各个候选字的概率；基于该候选语料的所有候选字的概率，计算得到该候选语料属于所述目标领域的概率。 4.根据权利要求3所述的方法，其中，所述基于该候选语料的所有候选字的概率，计算得到该候选语料属于所述目标领域的概率，包括：将该候选语料的所有候选字的概率相乘，得到该候选语料属于所述目标领域的概率。 5.根据权利要求1 ‑4之一所述的方法，其中，所述基于各个候选语料属于所述目标领域的概率，筛选所述候选语料集得到第一筛选结果，包括：响应于所述候选语料集中的候选语料属于所述目标领域的概率大于或等于概率阈值，将该候选语料作为第一筛选结果中的候选语料。 6.根据权利要求1所述的方法，所述方法还包括：基于所述文本样本集和非目标领域的文本集，训练得到相似比较模型，所述相似比较模型用于判断两个输入文本之间的相似度；从所述文本样本集选取文本样本；将选取的文本样本和所述第一筛选结果中的各个候选语料输入所述相似比较模型，得到各个候选语料与所述文本样本的相似度；基于所述相似度，得到第二筛选结果。 7.根据权利要求6所述的方法，其中，所述基于所述文本样本集和非目标领域的文本集，训练得到相似比较模型，包括：从所述文本样本集选取任意两个文本样本进行拼接，得到正样本；权　利　要　求　书 1/3 页 2 CN 115048505 A 2从所述非目标领域的文本集中随机选取文本，将所述文本样本集中的一个文本样本与选取的文本进行拼接，得到负样本；基于所述正样本与所述负样本训练相似比较网络，所述相似比较网络的输入为两种文本，输出为所述两种文本之间的相似度值；响应于所述相似比较网络满足训练完成条件，得到相似比较模型。 8.根据权利要求6或7 所述的方法，所述方法还包括：对所述第二筛选结果中的候选语料进行命名实体识别，得到各个候选语料中的命名实体序列；基于预先构建的目标领域的知识图谱，计算各个候选语料的命名实体序列中图谱实体占比值；基于所述占比值，对所述第二筛选结果进行筛选，得到第三筛选结果。 9.根据权利要求1所述的方法，所述方法包括：基于所述文本样本集和非目标领域的文本集，训练得到语料筛选模型，所述语料筛选模型用于判断输入文本属于目标领域的概率；将所述第一筛选结果中的各个候选语料输入所述语料筛选模型，得到各个候选语料属于目标领域的概率；基于各个候选语料属于目标领域的概率，得到第四筛选结果。 10.一种语料筛选装置，所述装置包括：集合选取单元，被配置成从获取的候选语料集中选取目标领域的文本样本集；语言训练单元，被配置成基于所述文本样本集和预先构建的语言网络，训练得到语言模型，所述语言模型用于根据当前输入文本中的输入内容，预测与所述输入内容相邻的下一个文本单元为预设词表中文本的概率分布；确定单元，被配置成基于所述语言模型，确定所述候选语料集中各个候选语料属于所述目标领域的概率；筛选单元，被配置成基于各个候选语料属于所述目标领域的概率，筛选所述候选语料集得到第一筛选结果。 11.根据权利要求10所述的装置，其中，所述语言网络为解码器，所述语言训练单元被配置成：从所述文本样本集中选取文本样本，所述文本样本包括至少一个单元样本；将起始符加选取的文本样本以及结束符依次输入所述解码器，得到所述解码器输出的选取的文本样本中的各个单元样本对应的概率分布，所述概率分布为所述文本样本集中文本单元为预测结果的预测概率；响应于所述解码器满足训练完成条件，得到语言模型。 12.根据权利要求10所述的装置，其中，所述确定单元被配置成：针对所述候选语料集中的各个候选语料，将起始符、该候选语料以及结束符依次输入所述语言模型，得到对应该候选语料的各个候选字的概率分布；基于对应各个候选字的概率分布，得到各个候选字的概率；基于该候选语料的所有候选字的概率，计算得到该候选语料属于所述目标领域的概率。 13.根据权利要求12所述的装置，其中，所述确定单元进一步被配置成：将该候选语料的所有候选字的概率相乘，得到该候选语料属于所述目标领域的概率。 14.根据权利要求10 ‑13之一所述的装置，其中，所述筛选单元被配置成：响应于所述候权　利　要　求　书 2/3 页 3 CN 115048505 A 3

专利 语料筛选方法和装置、电子设备、计算机可读介质

专利语料筛选方法和装置、电子设备、计算机可读介质