(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210661303.2
(22)申请日 2022.06.13
(71)申请人 四川封面传媒科技有限责任公司
地址 610020 四川省成 都市锦江区红星路
二段70号1幢传媒大厦8楼
(72)发明人 李少博 高登科 徐桢虎
(74)专利代理 机构 成都虹桥专利事务所(普通
合伙) 51124
专利代理师 陈春光
(51)Int.Cl.
G06F 16/9536(2019.01)
G06F 16/9537(2019.01)
G06F 16/36(2019.01)
G06N 5/02(2006.01)
G06F 16/901(2019.01)G06F 16/35(2019.01)
G06K 9/62(2022.01)
(54)发明名称
基于知识图谱的新闻热度预测方法
(57)摘要
本发明涉及新闻媒体技术领域, 公开了一种
基于知识图谱的新闻热度预测方法, 旨在解决现
有的新闻热度预测存在预测结果滞后的问题, 方
案主要包括: 首先对现有新闻事件的新闻数据进
行信息抽取, 并根据抽取得到主题词、 主要实体
词以及事件三元组构建事件图谱; 然后根据业务
规则以及预设的事件匹配算法构建知识图谱检
索引擎; 在需要对待预测新闻文本进行热度预测
时, 对待预测新闻文本进行信息抽取, 知识图谱
检索引擎根据抽取得到的主题词、 主要实体词以
及事件三元 组在事件图谱中匹配新闻事件; 最后
根据匹配得到的新闻事件的热度值及匹配得分
确定待预测新闻文本的预测热度值。 本发明实现
了对新闻热度的提前预测, 特别适用于媒体行
业。
权利要求书3页 说明书8页 附图2页
CN 114880588 A
2022.08.09
CN 114880588 A
1.基于知识图谱的新闻热度预测方法, 其特 征在于, 包括以下步骤:
步骤1、 获取新闻数据, 确定各新闻数据所属的新闻事件以及各新闻事件对应的热度
值, 对属于同一 新闻事件的新闻数据进行归类后, 对新闻数据进行 预处理;
步骤2、 针对每个新闻事件, 根据其对应的所有新闻数据进行信息抽取, 获得各新闻事
件对应的第一事 件三元组, 所述第一事 件三元组包 含第一主题词和第一主 要实体词;
步骤3、 根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似
度, 将所述相似度大于阈值的新闻事 件进行融合, 并确定融合后的新闻事 件的热度值;
步骤4、 将所有新闻事件及其对应的第一事件三元组保存至图数据库, 并基于应用场
景、 业务规则和预设匹配得分算法构建知识图谱检索引擎;
步骤5、 获取待预测新闻文本, 对待预测新闻文本进行信息抽取, 获得待预测新闻文本
对应的结构化数据, 所述结构化数据至少包括第二主题词、 第二主要实体词以及第二事件
三元组;
步骤6、 将所述结构化数据输入至知识图谱检索引擎, 所述知识图谱检索引擎根据输入
的结构化数据在图数据库中进行匹配, 得到匹配得分靠前的多个新闻事 件;
步骤7、 根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热
度值。
2.如权权利要求1所述的基于知识图谱的新闻热度 预测方法, 其特征在于, 步骤1中, 所
述获取新闻数据, 具体包括:
根据热榜新闻数据的质量、 数量和领域对各新闻数据源进行权重打分, 选取权重得分
靠前的多个新闻数据源;
基于爬虫算法并根据对应的权重得分分别对选取的各新闻数据源进行数据爬取, 获得
与热榜新闻事件相关联的所有新闻数据以及热榜新闻事件对应的热度值; 其中, 权重得分
越高, 则对应新闻数据源的爬取数据量越多, 权重得分越低, 则对应新闻数据源的爬取数据
量越少。
3.如权利要求1所述的基于知识图谱的新闻热度 预测方法, 其特征在于, 步骤1中, 所述
对新闻数据进行 预处理, 具体包括:
过滤无法归类以及信息残缺的新闻数据;
过滤新闻数据中的敏感信息和不良信息;
对新闻数据进行脏数据清洗以及去重处 理。
4.如权利要求1所述的基于知识图谱的新闻热度 预测方法, 其特征在于, 步骤2中, 所述
根据其对应的所有新闻数据进行信息抽取, 具体包括:
使用LDA模型对新闻数据进行主题词抽取, 获得新闻事件对应的多个主题词, 选取排名
靠前且在新闻数据中出现的多个主题词作为第一主题词;
对新闻事件下的所有新闻数据进行分句处理后, 基于领域词典和深度 学习进行实体识
别抽取, 获得新闻事件对应的多个实体词, 基于RoBERTa ‑CRF模型进行句子级别的实体 关系
联合抽取, 获得新闻事 件对应的多个事 件三元组;
基于TF‑IDF计算抽取的各实体词在新 闻数据中的实体得分, 将该实体得分进行归一化
处理后, 选取实体得分之和占预设比例的实体词作为对应新闻事 件的第一主 要实体词;
将包含第一主题词以及第一主要实体词的事件三元组作为新闻事件的第一事件三元权 利 要 求 书 1/3 页
2
CN 114880588 A
2组。
5.如权利要求1所述的基于知识图谱的新闻热度 预测方法, 其特征在于, 步骤3 中, 根据
所述第一事 件三元组计算发布时间在预设时间范围内的新闻事 件的相似度, 具体包括:
获取各新闻事件对应的发布时间, 选取一定时间范围内的新闻事件, 并计算选取的各
新闻事件对应的第一事 件三元组的相似度, 具体包括:
基于Jaccard相似系数计算各第一事件三元组中主要实体词的实体相似度, 基于
RoBERTa对各第一事件三元组中的主题词向量化后, 计算各第一事件三元组中主题词的余
弦相似度, 对所述实体相似度和余弦相似度进行加权求和后得到各新闻事 件的相似度。
6.如权利要求1所述的基于知识图谱的新闻热度 预测方法, 其特征在于, 步骤3 中, 所述
确定融合后的新闻事 件的热度值, 具体包括:
对各新闻事 件对应的热度值进行对齐处 理;
对融合后的新闻事件的热度值进行更新处理, 具体包括: 将各新闻事件的热度值的平
均值, 作为对应融合后的新闻事 件的热度值。
7.如权利要求1所述的基于知识图谱的新闻热度 预测方法, 其特征在于, 步骤5 中, 所述
对待预测新闻文本进行信息抽取, 具体包括:
使用LDA模型对待预测新闻文本进行主题词抽取, 获得待预测新闻文本对应的多个主
题词, 选取排名靠前且在待预测新闻文本中出现的多个主题词作为第二主题词;
对待预测新闻文本进行分句处理后, 基于领域词典和深度学习进行实体识别抽取, 获
得待预测新闻文本对应的多个实体词, 基于RoBERTa ‑CRF模型进行句子级别的实体关系联
合抽取, 获得待预测新闻文本对应的多个事 件三元组;
基于TF‑IDF计算抽取的各实体词在待预测新闻文本中的实体得分, 将该实体得分进行
归一化处理后, 选取实体得分之和占预设比例的实体词作为待预测新闻文本的第二主要实
体词;
将包含第二主题词以及第二主要实体词的事件三元组作为待预测新闻文本的第二事
件三元组。
8.如权利要求1所述的基于知识图谱的新闻热度 预测方法, 其特征在于, 步骤6 中, 所述
知识图谱检索引擎 根据输入的结构化数据在图数据库中进行匹配, 具体包括:
基于Word2vec将所述第二事件三元组与各第一事件三元组进行向量化后, 计算所述第
二事件三元组与各第一事 件三元组的三元组相似度;
基于Jaccard相似系数计算所述第二主要实体词与各第一事件三元组中的第一主要实
体词的实体词类型相似度;
基于规则映射计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的
实体词数量相似度;
基于Word2vec将所述第二主题词与各第一事件三元组中的第一主题词进行向量化后,
计算所述第二主题词与各第一事 件三元组中的第一主题词的主题词相似度;
将所述三元组相似度、 实体词类型相似度、 实体词数量相似度和主题词相似度的平均
值作为所述待预测新闻文本与图数据库中各新闻事 件的匹配得分。
9.如权利要求1所述的基于知识图谱的新闻热度 预测方法, 其特征在于, 步骤7中, 所述
根据匹配得到的新闻事件的热度值及匹配得分确定待 预测新闻文本的预测热度值, 具体包权 利 要 求 书 2/3 页
3
CN 114880588 A
3
专利 基于知识图谱的新闻热度预测方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:58:54上传分享