说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210752941.5 (22)申请日 2022.06.29 (71)申请人 拉扎斯网络科技 (上海) 有限公司 地址 200333 上海市普陀区真北路78 8号 507室 (72)发明人 贾伟 倪江柳伊  许春媛 董传磊  屈迪 张安洁 陈梓健 汪利飞  (74)专利代理 机构 北京中强智尚知识产权代理 有限公司 1 1448 专利代理师 贾依娇 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 16/953(2019.01) (54)发明名称 基于知识图谱的中文相似字检索方法和装 置、 电子设备 (57)摘要 本申请提供了一种基于知识图谱的中文相 似字检索方法和装置、 电子设备及存储介质, 涉 及互联网技术领域。 该方法获取待检索字, 在预 先构建的知识 图谱中查找与待检索字匹配的中 文字所在的中文相似字数据对, 其中知识图谱中 包含表征两两中文字之间的相似关系的数据对; 利用查找到的中文相似字数据对, 获取与待检索 字对应的中文相似字。 本申请实施例通过构建中 文汉字的知识图谱, 知 识图谱中包含表征两两中 文字之间的相似关系的结构化的数据对, 通过知 识图谱进行相似字符检索增强中文内容安全防 控能力。 权利要求书2页 说明书10页 附图3页 CN 115080695 A 2022.09.20 CN 115080695 A 1.一种基于知识图谱的中文相似字检索方法, 其特 征在于, 包括: 获取待检索字, 在预先构建的知识图谱中查找与 所述待检索字匹配的中文字所在的中 文相似字数据对, 其中所述知识图谱中包 含表征两 两中文字之间的相似关系的数据对; 利用查找到的所述中文相似字数据对, 获取与所述待检索字对应的中文相似字 。 2.根据权利要求1所述的方法, 其特 征在于, 通过以下步骤构建所述知识图谱: 获取多个中文字, 针对所述多个中文字中的各个中文字构建中文字特性索引; 根据所述各个中文字的中文字特性索引, 确定出 所述多个中文字中的相似字; 根据确定出的所述多个中文字 中的相似字, 生成表征两两 中文字之间的相似关系的数 据对; 利用所述表征两 两中文字之间的相似关系的数据对作为知识条目, 构建知识图谱。 3.根据权利要求2所述的方法, 其特征在于, 所述中文字特性索引包括: 拼音索引、 结构 索引、 拆字索引、 四角码索引、 五笔索引、 笔画序列索引、 语义索引中的一项或多 项。 4.根据权利要求3所述的方法, 其特征在于, 根据所述各个中文字的中文字特性索引, 确定出所述多个中文字中的相似字, 包括: 基于所述各个 中文字的拼音索引, 对前鼻音和后鼻音、 平舌音和卷舌音做统一处理后, 确定出所述多个中文字中拼音相同的为音近 字。 5.根据权利要求3所述的方法, 其特征在于, 根据所述各个中文字的中文字特性索引, 确定出所述多个中文字中的相似字, 包括: 基于所述各个中文字的结构索引和拆字索引, 确定所述各个中文字的偏旁部和余部, 将所述多个中文字中具 备相同余部的中文字确定为形近 字。 6.根据权利要求3所述的方法, 其特征在于, 根据所述各个中文字的中文字特性索引, 确定出所述多个中文字中的相似字, 包括: 基于所述各个 中文字的笔画序列索引, 将相同位置具备笔画序列也相同的部分确定为 公共字串; 将所述多个中文字中最长连续公共字串长度占中文字笔画序列总长度的比例大于或 等于第一预设比例阈值的中文字确定为形近 字。 7.根据权利要求3所述的方法, 其特征在于, 根据所述各个中文字的中文字特性索引, 确定出所述多个中文字中的相似字, 包括: 基于所述各个 中文字的四角码索引或五笔索引, 将所述多个中文字 中编码的相同部分 大于或等于第二预设比例阈值的中文字确定为形近 字。 8.一种基于知识图谱的中文相似字检索装置, 其特 征在于, 包括: 第一获取模块, 用于获取待检索字; 查找模块, 用于在预先构建的知识图谱中查找与 所述待检索字匹配的中文字所在的中 文相似字数据对, 其中所述知识图谱中包 含表征两 两中文字之间的相似关系的数据对; 第二获取模块, 用于利用查找到的所述中文相似字数据对, 获取与所述待检索字对应 的中文相似字 。 9.一种电子设备, 其特征在于, 包括处理器和存储器, 其中, 所述存储器中存储有计算 机程序, 所述处理器被配置为运行所述计算机程序以执行权利要求 1至7中任一项 所述的基 于知识图谱的中文相似字检索方法。权 利 要 求 书 1/2 页 2 CN 115080695 A 210.一种存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 其中, 所述计算机 程序被配置为运行时执行权利要求1至7中任一项所述的基于知识图谱的中文相似字检索 方法。权 利 要 求 书 2/2 页 3 CN 115080695 A 3

.PDF文档 专利 基于知识图谱的中文相似字检索方法和装置、电子设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱的中文相似字检索方法和装置、电子设备 第 1 页 专利 基于知识图谱的中文相似字检索方法和装置、电子设备 第 2 页 专利 基于知识图谱的中文相似字检索方法和装置、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:58:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。