说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221073978 8.2 (22)申请日 2022.06.28 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 张智  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 麦广林 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 16/335(2019.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06F 16/951(2019.01) G06K 9/62(2022.01) (54)发明名称 文本处理方法和装置、 设备、 介质 (57)摘要 本申请实施例提供了一种文本处理方法和 装置、 设备、 存储介质, 属于人工智能技术领域。 该方法包括: 通过对原始语料进行文本抽取处 理, 提取出最能表达原始语料含义的初步摘要文 本, 再根据预设的分段文本长度对初步摘要文本 进行划分, 得到目标分段文本。 对目标分段文本 进行过滤, 以确定目标候选词组, 并对目标候选 词组语义解析处理, 通过分词的词类型能够确定 分词的重要性, 并根据分词的词类型将分词链接 至预设的上下位认知图谱, 得到目标上下位认知 图谱。 由于通过目标上下位知识图谱能够轻松获 知各个分词的上下位信息、 以及各个 分词之间的 联系, 因此, 通过本申请实施例的文本处理方法 能够提高获取信息的效率。 权利要求书2页 说明书12页 附图5页 CN 114996458 A 2022.09.02 CN 114996458 A 1.一种文本处 理方法, 其特 征在于, 所述方法包括: 获取原始语料; 对所述原 始语料进行文本抽取处 理, 以得到初步摘要 文本; 根据预设的分段文本 长度将所述初步摘要 文本划分为多个初步分段文本; 对多个所述初步分段文本进行 过滤, 以得到多个初步 候选词组; 计算每个所述初步候选词组与所述原始语料的相似度值, 并将符合预设的相似度 条件 的所述初步 候选词组作为目标候选词组; 对所述目标候选词组进行语义 解析处理, 以得到多个分词和分词的词类型; 根据所述分词的词类型将多个所述分词链接到预设的上下位认知图谱, 以得到目标上 下位认知图谱。 2.根据权利要求1所述的方法, 其特征在于, 所述对多个所述初步分段文本进行过滤, 以得到多个初步 候选词组, 包括: 获取所述原始语料的参 考场景分类; 通过预设的分类预测模型对多个所述初步分段文本进行预测, 以得到每个所述初步分 段文本的预测场景分类; 根据所述参考场景分类和所述预测场景分类的匹配关系对多个所述初步分段文本进 行筛选; 根据筛选后的多个所述初步分段文本确定多个初步 候选词组。 3.根据权利要求1所述的方法, 其特征在于, 所述对多个所述初步分段文本进行过滤, 以得到多个初步 候选词组, 包括: 获取所述原始语料的参 考场景分类; 根据所述 参考场景分类确定关键词集, 所述关键词集包括多个关键词; 计算每个所述初步分段文本与多个所述关键词的词语匹配值, 根据符合预设匹配条件 的多个所述初步分段文本得到多个初步 候选词组。 4.根据权利要求1所述的方法, 其特征在于, 所述对多个所述初步分段文本进行过滤, 以得到多个初步 候选词组, 包括: 通过预设的bert质量模型对多个所述初步分段文本进行过滤处理, 得到多个目标分段 文本; 通过预设的sifRan k语义模型计算每 个所述目标分段文本与原 始语料的文本相似度; 通过所述文本相似度对多个所述目标分段文本进行筛 选处理, 以得到多个候选词组。 5.根据权利要求1至4任一项所述的方法, 其特征在于, 所述根据所述分词的词类型将 多个所述分词链接 到预设的上 下位认知图谱, 以得到目标 上下位认知图谱, 包括: 获取所述原始语料的参 考场景分类; 根据所述 参考场景分类确定场景节点类型; 若所述上下位认知图谱的节点不包括所述场景节点类型, 根据场景节点类型的相关性 从所述上 下位认知图谱中确定待处 理节点; 在所述待处理节点下创建所述场景节点类型对应的场景节点, 以得到初步上下位认知 图谱; 根据所述分词的词类型将多个所述分词链接到所述初步上下位认知图谱, 以得到目标权 利 要 求 书 1/2 页 2 CN 114996458 A 2上下位认知图谱。 6.根据权利要求1至4任一项所述的方法, 其特征在于, 所述根据所述分词的词类型将 多个所述分词链接 到预设的上 下位认知图谱, 以得到目标 上下位认知图谱, 包括: 根据多个所述分词构建初步分词集; 若确定所述分词的词类型不属于预设的词类型集, 将所述分词的词类型对应的分词从 所述初步分词集中删除, 以得到目标分词集, 所述 目标分词集包括多个目标分词; 其中, 所 述词类型集包括 地区类、 动作类、 数量词类; 根据所述分词的词类型将多个所述目标分词链接到预设的上下位认知图谱, 以得到目 标上下位认知图谱。 7.根据权利要求1至4任一项所述的方法, 其特征在于, 所述对所述原始语料进行文本 抽取处理, 以得到初步摘要 文本, 包括: 通过预设的事件分类预测模型对所述原始语料进行预测处理, 以得到至少两个语料事 件类型; 计算每个所述语料事 件类型与预设的关键事 件的匹配程度, 以得到事 件匹配值; 根据所述事 件匹配值和至少两个所述语料事 件类型确定目标事 件类型; 按照预设的截取文本长度对所述原始语料进行文本截取, 以得到至少两个原始摘要文 本; 根据所述原 始摘要文本和所述目标事 件类型的匹配程度确定所述初步摘要 文本。 8.一种文本处 理装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取原 始语料; 摘要文本提取模块, 用于对所述原 始语料进行文本抽取处 理, 以得到初步摘要 文本; 文本分段模块, 用于根据预设的分段文本长度将所述初步摘要文本划分为多个初步分 段文本; 初步候选词组生成模块, 用于对多个所述初步分段文本进行过滤, 以得到多个初步候 选词组; 目标候选词组生成模块, 用于计算每个所述初步候选词组与所述原始语料的相似度 值, 将符合预设的相似度条件的初步 候选词组作为目标候选词组; 语义解析处理模块, 用于对所述目标候选词组进行语义解析处理, 以得到多个分词和 分词的词类型; 词语链接模块, 用于根据所述分词的词类型将多个所述分词链接到预设的上下位认知 图谱, 以得到目标 上下位认知图谱。 9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器、 处理器、 存储在所述存 储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连 接通信的数据总线, 所述程序被所述处理器执行时实现如权利要求 1至7任一项 所述的方法 的步骤。 10.一种存储介质, 所述存储介质为计算机可读存储介质, 用于计算机可读存储, 其特 征在于, 所述存储介质存储有一个或者多个程序, 所述一个或者多个程序可被一个或者多 个处理器执行, 以实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114996458 A 3

.PDF文档 专利 文本处理方法和装置、设备、介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法和装置、设备、介质 第 1 页 专利 文本处理方法和装置、设备、介质 第 2 页 专利 文本处理方法和装置、设备、介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:00:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。