说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210582554.1 (22)申请日 2022.05.26 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 祝慧佳  (74)专利代理 机构 北京国昊天诚知识产权代理 有限公司 1 1315 专利代理师 朱文杰 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 数据处理方法、 装置及设备 (57)摘要 本说明书实施例提供了一种数据处理方法、 装置及设备, 其中, 该方法包括: 获取待识别的目 标对象; 若所述目标对象中包含与第一暗语匹配 的词语, 则从预先构建的语料库包含的语料中, 获取与所述目标对象对应的目标语料, 所述预先 构建的语料库包括第一语料, 所述第一语料为基 于第二暗语和目标风险语料构建的风险语料, 所 述目标风险语料包含与所述第二暗语具有预设 关联关系的风险词语; 基于所述目标对象和所述 目标语料的相似度, 以及所述目标语料的风险标 签, 确定所述目标对象是否为存在风险。 权利要求书3页 说明书15页 附图4页 CN 114880489 A 2022.08.09 CN 114880489 A 1.一种数据处 理方法, 包括: 获取待识别的目标对象; 若所述目标对象中包含与第一暗语匹配的词语, 则从预先构建的语料库包含的语料 中, 获取与所述目标对象对应的目标语料, 所述预先构建的语料库包括第一语料, 所述第一 语料为基于第二暗语和目标风险语料构建的风险语料, 所述目标风险语料包含与所述第二 暗语具有预设 关联关系的风险词语; 基于所述目标对象和所述目标语料的相似度, 以及所述目标语料的风险标签, 确定所 述目标对象是否为存在风险。 2.根据权利要求1所述的方法, 在所述从预先构建的语料库包含的语料中, 获取与 所述 目标对象对应的目标语料之前, 还 包括: 获取包含与所述第二暗语具有预设 关联关系的风险词语的目标风险语料; 基于所述第二暗语, 对所述目标风险语料中的风险词语进行替换处理, 得到所述第一 语料, 并基于所述第一语料, 构建所述语料库。 3.根据权利要求2所述的方法, 所述获取包含与所述第二暗语具有预设关联关系的风 险词语的目标风险语料, 包括: 获取与所述第二暗语具有预设 关联关系的第一 风险词语; 获取预设风险词语知识图谱中与所述第一风险词语具有所述预设关联关系的第二风 险词语; 将包含所述第一风险词语的风险语料, 以及包含所述第二风险词语的风险语料, 确定 为所述目标风险语料。 4.根据权利要求3所述的方法, 所述预先构建的语料库还包括第 二语料, 所述第 二语料 为包含所述第二暗语的无风险语料, 所述基于所述第一语料, 构建所述语料库, 包括: 将包含所述第 二暗语的无风险语料确定为所述第 二语料, 并基于所述第 一语料和所述 第二语料, 构建所述语料库。 5.根据权利要求4所述的方法, 所述基于所述第 一语料和所述第 二语料, 构建所述语料 库, 包括: 基于预先训练的向量提取模型, 对所述第一语料和所述第二语料进行特征提取处理, 得到与所述第一语料对应的第一表征向量, 以及与所述第二语料对应的第二表征向量; 基于所述第二暗语、 所述第一表征向量和所述第一语料的风险标签, 以及所述第二表 征向量和所述第二语料的风险标签, 构建所述语料库; 所述从预 先构建的语料库包 含的语料中, 获取与所述目标对象对应的目标语料, 包括: 基于所述预先训练的向量提取模型, 对所述目标对象进行特征提取处理, 得到与所述 目标对象对应的目标表征向量; 基于所述第一暗语和所述第二暗语之间的相似度, 和/或所述目标表征向量与所述语 料库中的表征向量之间的相似度, 获取与所述目标对象对应的目标语料。 6.根据权利要求5所述的方法, 所述目标语料有多个, 所述基于所述目标对象和所述目 标语料的相似度, 以及所述目标语料的风险标签, 确定所述目标对象是否为存在风险, 包 括: 获取所述目标对象的目标表征向量和所述目标语料的表征向量之间的相似度, 对所述权 利 要 求 书 1/3 页 2 CN 114880489 A 2目标语料进行排序; 基于所述目标语料的排序顺序, 以及所述目标语料的风险标签, 确定所述目标对象是 否为存在风险。 7.根据权利要求6所述的方法, 所述基于所述目标语料的排序顺序, 以及所述目标语料 的风险标签, 确定所述目标对象是否为存在风险, 包括: 基于所述目标语料的排序顺序, 以及所述目标语料的风险标签, 确定所述目标对象的 风险值, 并基于所述目标对象的风险值, 确定所述目标对象是否存在风险。 8.根据权利要求7所述的方法, 所述基于所述目标语料的排序顺序, 以及所述目标语料 的风险标签, 确定所述目标对象的风险值, 包括: 基于所述目标语料的排序顺序, 确定每 个所述目标语料的风险权 重; 基于所述目标语料的风险标签, 确定所述目标语料的风险值; 基于每个所述目标语料的风险权 重和风险值, 确定所述目标对象的风险值。 9.一种数据处 理装置, 包括: 对象获取模块, 用于获取待识别的目标对象; 语料获取模块, 用于若所述目标对象中包含与第一暗语匹配的词语, 则从预先构建的 语料库包含的语料中, 获取与所述 目标对象对应的目标语料, 所述预先构建的语料库包括 第一语料, 所述第一语料为基于第二暗语和目标风险语料构建的风险语料, 所述 目标风险 语料包含与所述第二暗语具有预设 关联关系的风险词语; 风险确定模块, 用于基于所述目标对象和所述目标语料的相似度, 以及所述目标语料 的风险标签, 确定所述目标对象是否为存在风险。 10.一种数据处 理设备, 所述数据处 理设备包括: 处理器; 以及 被安排成存储计算机可执行指令的存储器, 所述可执行指令在被执行时使所述处理 器: 获取待识别的目标对象; 若所述目标对象中包含与第一暗语匹配的词语, 则从预先构建的语料库包含的语料 中, 获取与所述目标对象对应的目标语料, 所述预先构建的语料库包括第一语料, 所述第一 语料为基于第二暗语和目标风险语料构建的风险语料, 所述目标风险语料包含与所述第二 暗语具有预设 关联关系的风险词语; 基于所述目标对象和所述目标语料的相似度, 以及所述目标语料的风险标签, 确定所 述目标对象是否为存在风险。 11.一种存储介质, 所述存储介质用于存储计算机可执行指令, 所述可执行指令在被执 行时实现以下流 程: 获取待识别的目标对象; 若所述目标对象中包含与第一暗语匹配的词语, 则从预先构建的语料库包含的语料 中, 获取与所述目标对象对应的目标语料, 所述预先构建的语料库包括第一语料, 所述第一 语料为基于第二暗语和目标风险语料构建的风险语料, 所述目标风险语料包含与所述第二 暗语具有预设 关联关系的风险词语; 基于所述目标对象和所述目标语料的相似度, 以及所述目标语料的风险标签, 确定所权 利 要 求 书 2/3 页 3 CN 114880489 A 3

.PDF文档 专利 数据处理方法、装置及设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、装置及设备 第 1 页 专利 数据处理方法、装置及设备 第 2 页 专利 数据处理方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:59:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。