(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210840564.0
(22)申请日 2022.07.18
(71)申请人 盐城金堤科技有限公司
地址 224008 江苏省盐城市 盐南高新区科
城街道学海路大数据产业园B-17-1幢
501-503室 (CNK)
(72)发明人 李国库
(74)专利代理 机构 北京卓岚智财知识产权代理
有限公司 1 1624
专利代理师 郭智
(51)Int.Cl.
G06F 16/335(2019.01)
G06F 16/33(2019.01)
G06F 16/36(2019.01)
G06F 40/216(2020.01)G06F 40/284(2020.01)
(54)发明名称
推送相似文章判定方法和装置、 及存储介质
和电子设备
(57)摘要
本发明提供了一种推送相似文章判定方法
和装置、 及存储介质和电子设备, 该方法包括: 获
取与用户匹配度最高的前N篇文章作为候选文
章, 及获取用户的历史推送文章; 分别获取候选
文章和历史推送文章中对应的候选文章关键词
语和历史推送文章关键词语; 根据历史推送文章
关键词语, 构建有向有环图; 基于有向有环图和
候选文章关键词语, 计算候选文章的相似分数;
响应相似分数小于或者等于预先设定的阈值的
比较结果, 去除与历史推送文章重复的候选文
章; 本发明通过计算并判断候选文章与历史推送
文章的相似分数, 来确定候选文章是否与 历史推
送文章相似, 避免在推送时对同一用户重复推送
相似文章, 并且能够减少资源占用率。
权利要求书3页 说明书12页 附图6页
CN 115292477 A
2022.11.04
CN 115292477 A
1.一种推送相似文章判定方法, 其特 征在于, 所述方法包括:
获取与用户匹配度最高的前N 篇文章作为 候选文章, 及获取 所述用户的历史推送文章;
分别获取所述候选文章和所述历史推送文章中对应的候选文章关键词语和历史推送
文章关键词语;
根据所述历史推送文章关键词语, 构建有向有环图;
基于所述有向有环图和所述 候选文章关键词语, 计算所述 候选文章的相似分数;
响应所述相似分数小于或者等于预先设定的阈值的比较结果, 去除与 所述历史推送文
章重复的候选文章。
2.根据权利要求1所述的方法, 其特征在于, 所述基于所述有向有环图和所述候选文章
关键词语, 计算所述 候选文章的相似分数, 包括:
基于所述有向有环图, 计算所述有向有环图中的每个所述历史推送文章关键词语的词
权重值;
基于所述有向有环图和所述候选文章关键词语, 计算每一篇所述候选文章与 所述历史
推送文章的文章相似度;
根据所述词权 重值和所述文章相似度, 计算所述 候选文章的相似分数。
3.根据权利要求1所述的方法, 其特征在于, 所述分别获取所述候选文章和所述历史推
送文章中对应的候选文章关键词语和历史推送文章关键词语, 包括:
分别对所述 候选文章和所述历史推送文章进行分词;
剔除分词后的所述候选文章和分词后的所述历史推送文章中的停用词, 分别对应得到
候选文章关键词语和历史推送文章关键词语。
4.根据权利要求3所述的方法, 其特征在于, 所述剔除分词后的所述候选文章和分词后
的所述历史推送文章中的停用词, 分别对应得到候选文章关键词语和历史推送文章关键词
语, 包括:
预先设定停用词列表;
根据所述停用词列表, 剔除分词后的所述候选文章和分词后的所述历史推送文章中的
停用词, 分别对应得到所述 候选文章关键词语和所述历史推送文章关键词语。
5.根据权利要求1所述的方法, 其特征在于, 所述根据所述历史推送文章关键词语, 构
建有向有环图, 包括:
汇总所述历史推送文章关键词语;
以所述历史推送文章关键词语为节点, 以所述历史推送文章关键词语的先后顺序作为
每个节点的指向, 构建所述有向有环图。
6.根据权利要求2所述的方法, 其特征在于, 所述基于所述有向有环图, 计算所述有向
有环图中的每 个所述历史推送文章关键词语的词权 重值, 包括:
获取所述历史推送文章数及所述有向有环图中的每个所述历史推送文章关键词语在
所述历史推送文章中首次出现的历史次数;
基于Q=log((L+n)/(M+n)), 计算所述有向有环图中的每个所述历史推送文章关键词
语的词权重值, 其中, Q为词权重值, L为历史推送文章数, M为历史次数, n为权重调整值且 取
不为零的正整数。
7.根据权利要求2所述的方法, 其特征在于, 所述基于所述有向有环图和所述候选文章权 利 要 求 书 1/3 页
2
CN 115292477 A
2关键词语, 计算每一 篇所述候选文章与所述历史推送文章的文章相似度, 包括:
基于所述有向有环图和所述候选文章关键词语, 获取所述候选文章路径, 得到结果向
量;
根据所述结果向量, 计算所述 候选文章与所述历史推送文章的文章相似度。
8.根据权利要求7所述的方法, 其特征在于, 所述基于所述有向有环图和所述候选文章
关键词语, 获取 所述候选文章路径, 得到结果向量, 包括:
将所述候选文章关键词语中的每一词语分别在所述有向有环图中进行遍历, 判断能否
查找到与所述词语相同的节点;
若查找到相同的节点, 将当前词语标记为第一预设标识符并添加至结果向量, 以所述
有向有环图中当前节点向后继续 查找所述 候选文章关键词语中的下一个词语;
若未查找到相同的节点, 将当前词语标记为第二预设标识符并添加至结果向量, 以所
述有向有环图中当前节点 继续向后查找所述当前词语, 当对前节点的每一出度的遍历的步
长大于预设步长仍未查找到与所述当前词语相同的节点时, 在所述有向有环图中重新遍历
所述候选文章关键词语中的下一个词语;
遍历结束后得到最终的结果向量。
9.根据权利要求7所述的方法, 其特征在于, 所述根据所述结果向量, 计算所述候选文
章与所述历史推送文章的文章相似度, 包括:
基于最终的所述结果向量, 计算所述结果向量中所述第 一预设标识符的个数占整体所
述结果向量长度的比例。
10.根据权利要求2所述的方法, 其特征在于, 所述根据所述词权重值和所述文章相似
度, 计算所述 候选文章的相似分数, 包括:
根据所述词权 重值, 计算所述 候选文章在所述有向有环图中的词权 重和;
根据相似分数=词权 重和×文章相似度, 计算所述 候选文章的相似分数。
11.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
响应所述相似分数大于所述预先设定的阈值的比较结果, 则所述候选文章与 所述历史
推送文章 不相似, 使用所述 候选文章关键词语补充构建所述有向有环图。
12.一种推送相似文章判定装置, 其特 征在于, 所述装置包括:
文章获取模块, 用于获取与用户匹配度最高的前N篇文章作为候选文章, 及获取所述用
户的历史推送文章;
关键词语获取模块, 用于分别获取所述候选文章和所述历史推送文章中对应的候选文
章关键词语和历史推送文章关键词语;
构建模块, 用于根据所述历史推送文章关键词语, 构建有向有环图;
计算模块, 用于基于所述有向有环图和所述候选文章关键词语, 计算所述候选文章的
相似分数;
去重模块, 用于响应所述相似分数小于或者等于预先设定的阈值的比较结果, 去 除与
所述历史推送文章重复的候选文章。
13.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现权利要求1 ‑11中任一所述的推送相似文章判定方法。
14.一种电子设备, 所述电子设备包括存储器以及处理器, 所述存储器上用于存储计算权 利 要 求 书 2/3 页
3
CN 115292477 A
3
专利 推送相似文章判定方法和装置、及存储介质和电子设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:49上传分享