(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210565183.6
(22)申请日 2022.05.24
(71)申请人 张艳
地址 100020 北京市朝阳区新源南路8号启
皓北京西塔8层
(72)发明人 张艳 李扬
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06F 40/194(2020.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
(54)发明名称
微博大数据热点 话题多维度智能提取系统
(57)摘要
本申请提出了基于短文本拓展和隐藏语义
计算方法的文本建模 方法, 解决现有技术的文本
建模方法进行微博话题提取, 存在数据降噪、 降
维不足、 语义丢失的问题; 本申请结合微博特性
提出了短文本扩充方法, 重组讨论图谱树扩充了
微博文本, 并通过隐藏语义计算方法进行了微博
文本建模, 在不丢失语义的情况下, 降低了文本
向量的维度; 本申请提出了一种协同近似集合方
法用于微博话题的提取, 并进行了话题热度的打
分, 将时间数据特性纳入到文本相似度计算中,
提出微博话题热度值计算的影响因素和具体方
法, 并生成了微博热点话题打分列表, 提升微博
话题的精 准性、 时效性, 减少话题信息的遗失, 实
现微博大 数据热点 话题多维度智能准确提取。
权利要求书6页 说明书16页 附图4页
CN 114881041 A
2022.08.09
CN 114881041 A
1.微博大数据热点话题多维度智能提取系统, 其特征在于, 利用微博传播及互动特点,
构建基于微博海量数据的热点话题提取模型, 基于 短文本扩充与隐藏语义计算方法的文本
建模, 并基于协同近似集合和热度打分对微博热点话题进行自动提取, 构建对应的自动提
取系统;
S1, 联合短文本扩充与隐藏语义计算的微博文本建模: 结合微博特性提出短文本扩充
方法, 重组讨论图谱树扩充了微博文本, 并通过隐藏语义计算方法进 行微博文本 建模, 减弱
字词间的关联性, 获得字词间的 隐含语义结构, 对词和文本进 行表述, 在不丢失语义的情况
下, 降低文本向量的维度;
S2, 基于协同近似集合和热度打分的微博热点话题提取, 包括: 改进的协同近似集合算
法、 联合时间数据 的文本相似度计算、 微博话题热度影响因素评分、 微博话题热度值的计
算; 融合层次近似集合和K均衡算法并进 行改进, 并将时间数据特性纳入到文本相似度计算
中; 结合微博文本的特性引入话题热度值计算的影响因素和实现方法, 并生成微博热点话
题打分列表;
S3, 构建微博热点话题多维度智能提取系统, 对文本模型化表示方法所构建的基于短
文本扩充方法、 隐藏语义计算方法的文本建模, 综合协同近似集合和热度打分的热点提取
方法提升提取精准性、 时效性, 减少话题信息遗失, 实现对微博热点话题的自动提取和打分
展示。
2.根据权利要求1所述微博大数据热点话题多维度智能提取系统, 其特征在于, 基于叙
词的微博评论处 理:
(1)删除长度不足的回复评论, 此处设定一定的临界值长度Length, 在微博数据提取中
去掉内容短于Length的回复评论;
(2)对于微博的内容进行数据的清洗和预处理, 包括剔除停用词、 表情符号、 用户账户、
网址链接, 对微博内容进行中文分词处 理;
(3)删除与初始微博内容不相关的评论, 将回复评论的微博集合中, 抽取叙词与初始微
博相近的评论, 对于 本条规则的执 行, 具体过程如下:
过程1: 将原微博的叙词簇作为初始簇;
过程2: 从原微博的评论中按时间顺序读取一条;
过程3: 将抽取的评论中的词与初始簇计算空间距离;
过程4: 把评论与初始簇计算归一化的空间距离值相加求和; 如果结果小于设定的临界
值, 则添加至有用评论列表, 如果 不是, 则剔除;
再次执行过程3和过程4, 直至所有回复评论处理完成, 得到原微博对应的有效的评论
列表;
在计算评论与初始微博的空间距离时, 涉及文本近似度的计算, 计算词a、 b的近似概
率:
P(a|b)是在b出现的情况下, a出现的概率, 它于a与b同时出现的概率除以b出现的概
率, 计算词与叙词簇的相关性, 令词w与簇C之间的距离取max{P(ci|ω)ci∈C}的倒数, 具体权 利 要 求 书 1/6 页
2
CN 114881041 A
2方法如下:
如果ci在簇C中, 则ci在包含w的文本中出现的概率大, 词w至簇C的空间距离短, 将词w加
进簇C; 否则, 词w离 簇C的空间距离大, 则词w 不加入簇 C。
3.根据权利要求1所述微博大数据热点话题多维度智能提取系统, 其特征在于, 重组讨
论图谱树扩充微博文本: 在微博 的讨论图谱树里, 对微博内容进行重组拓展形成微博的长
文本, 包括两种情形: 一是连续转发的微博, 转发博文采用<RT>来标记; 二是在回复中评论
对话, 交谈时会指向标签@微博 博主;
微博文本信息提取结合微博的呈现方式, 将初始微博下的所有连续转发、 评论回复重
组, 作为该微博内容的拓展, 以此来进行话题的提取和计算, 在重组之前, 将已收集的数据
集Set<Blog>按时间先后进行打分得到SortedSet<Blog>, 然后将其作为算法的输入, 通过
算法处理, 将其转化为多个文本构成的集 合, 且已重组重复信息;
(1)重组连续 转发微博
使用页面上的标记来筛选Set<Blog>信息, 如果微博是初始微博信息或包含<RT>的转
发标记时, 此类微博信息加入到SortedSet<Blog>中, 对于原创微博的HashValue当作
textMap的键, 将重组后的TextSet<Blog>加到对应位置上, 按照 算法重组完成后, textMap
里的值都是重组重复信息的文本集;
理解最终得到的文本集包含的范围, 即没有被转发过的初始微博, 和连续转发的重复
微博内容, 处 理完成后标记为yeD, 作为初始输入的集 合, 并进行 下一步的处理;
(2)对话与评论的多微博重组
通过重组连续转发微博算法处理后, 剩下的文本集yeD中, 是带有指标标签@的微博信
息, 将对话与评论的多微博重组, 构建各自的对话树结构, 核心是微博发表的时间次序以及
指向标签@对应的微博信息传递关系;
先对上一步构成的yeD中微博信息依据其发布时间先后进行次序排列, 然后查询整个
yeD, 对于不包含@指向符合的微博, 将其作为Root结点构建一颗对话树, 并把新建的树加入
到discussTreeSet中; 对于转发和评论的微博, 则搜寻discussTreeSet, 直至: ①某条该树
结点中微博的发布人是该微博所指向的人; ②符合条件 ①的所有结点中两条微博发布时间
差最小, 然后将当前微博信息作为 其子结点信息加入原对话 树中;
通过对话与评论的多微博重组算法处理后, yeD中的微博信 息都被重组至对话树中, 剔
除只有Root结点或者是树的高度非常低的对话树, 即评论或者转发非常少的微博信息, 将
同一对话树结构的微博信息根据发布时间的先后次序重组为一个文本, 得到有意义的长文
本信息。
4.根据权利要求1所述微博大数据热点话题多维度智能提取系统, 其特征在于, 基于隐
藏语义计算的微博文本建模: 通过大量的文本计算, 构造文本 ‑字词矩阵, 然后提取字词和
文本的隐藏语义结构, 具体步骤如下:
令m表示文本中不同词的数量, n代表文本的数量, 词与文本共生矩阵用Amxn表示, 则权 利 要 求 书 2/6 页
3
CN 114881041 A
3
专利 微博大数据热点话题多维度智能提取系统
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:43上传分享