说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210665703.0 (22)申请日 2022.06.14 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 郭军军 王繁 相艳 余正涛  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 16/9536(2019.01) G06F 40/216(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多级交互和图重构的异构图卷积谣言 检测方法 (57)摘要 本发明涉及多级交互和图重构的异构图卷 积谣言检测方法, 属自然语言处理领域。 本发明 包括: 预处理谣言数据集, 使用词频 ‑逆文档频率 (TF‑IDF)、 互信息(PMI)等方法构建文本 ‑词子图 和文本‑用户子图; 利用多图卷积编码模块和多 图重构解码模块探索文本语义信息和用户传播 模式, 然后建立决策级检测模块通过多任务学习 来平衡全局和局部特征融合过程; 最后输出层使 用线性变换和softmax函数去预测当前序列中的 事件标签。 本发明采用多任务学习的方式, 通过 图卷积和图注意力机制对文本语义和用户 信息 进行编码, 图重构解码学习结构信息并利用选择 过滤机制促进谣 言检测。 本发明在公共数据集上 有更高的准确性并优于当前最先进 模型。 权利要求书4页 说明书13页 附图2页 CN 114880479 A 2022.08.09 CN 114880479 A 1.基于多级交互和图重构的异构图卷积谣言检测方法, 其特征在于: 所述方法的具体 步骤如下: Step1、 对谣言数据集进行预处理, 通过词频 ‑逆文档频率TF ‑IDF构建文本与词之间的 关系Epw, 互信息PMI来计算词与词节点之间边的权重Eww, 用户转发或回复源推文的时间倒 数构建文本与用户之间的关系权重Epu; 将构建的文本 ‑词‑用户图分解为文本 ‑词子图和文 本‑用户子图; Step2、 通过双通道卷积层分别 使用图卷积 GCN和图注意力网络GAT学习子图节点特征, 将图卷积层获得的节点特征利用变分图自编码VGAE实现图重构为节点寻找更好的嵌入向 量, 再对文本 ‑词子图中的全局语义关系和文本 ‑用户子图的用户传播信息嵌入向量利用决 策级全局特征策略和自适应门控融合策略进 行有效地过滤筛选, 采用联合训练同时学习和 更新各子图之间的参数。 2.根据权利要求1所述的基于多级交互和图重构的异构图卷积谣言检测方法, 其特征 在于: 所述Step1的具体步骤为: Step1.1、 通过词频 ‑逆文档频率TF ‑IDF、 互信息PMI、 用户转发或回复源推文的时间的 倒数来计算 边的权重, 分别构建文本 ‑词关联图和文本 ‑用户子图: G=(V, E)             (1) V=(P, W, U)           (2) E=(Epw, Eww, Epu)          (3) 其中, V=(P, W, U)和E=(Epw, Eww, Epu)分别表示图中节点和边的集合, 由三部分组成: 句 子集合P、 词集合W和用户集合U, P={p1, p2, ..., pm}是网络舆情下的多条文本信息, m表示文 本数量, W={w1, w2, ..., wn}是所有文本经过分词后的单词, U={u1, u2, ..., uo}表示社交媒 体中的用户集 合; Epw, Eww, Epu分别代表文本与词、 词与词、 文本与用户之间的关系; Step1.2、 对于文本与词的关系Epw, 使用词频 ‑逆文档频率TF ‑IDF的方法来计算句子节 点i和词节点j之间边的权 重, 具体如下: TF‑IDFij=TFij×IDFJ            (4) Step1.3、 为了利用词的全局共现信息, 使用互信息PMI来计算词与词节点之间边的权 重Eww; Step1.4、 文本与用户之间的关系权重Epu是用户转发或回复与源推文相关的文本的时 间倒数。 3.根据权利要求1所述的基于多级交互和图重构的异构图卷积谣言检测方法, 其特征 在于: 所述Step2的具体步骤如下: Step2.1、 经 过分解后的文本 ‑词子图节点表示 为 文本‑用户子图节点表示为 X’P和X’U是通过变换矩阵变换 后的节点表示; 利用GCN对子图进 行编码, 首先采用GCN学习高斯分布, 然后从该分布中采样 z, 高斯分布由均值 μ和标准差σ 分别唯一 地确定, 最后通过图重构生成一个新的邻接矩阵;权 利 要 求 书 1/4 页 2 CN 114880479 A 2Apw和Apu分别表示文本 ‑词子图和 文本‑用户子图之间关系的邻接矩阵, 通过GCN分别学 习均值 μ和标准偏差σ, 采用重新 参数化方法构造 z及更新梯度, 公式如下: H1=GCN(X, Apw)=Apwσ(ApwXW0)W1,        (6) μ=GCNμ(H1, Apw)            (7) logσ =GCNσ(H1, Apw)      (8) zpw= μ+∈σ          (9) 其中 表示第一层GCN的隐藏向量, 是Apw邻接矩阵的特征向量, ∈是 从标准高斯分布中取样的参数, W0, W1是GCN的可训练参数, GCNμ(H1, Apw)和GCNσ(H1, Apw)共享 第一层GCN 参数, 采用相同的计算方法学习文本 ‑用户子图的高斯分布zpu; 为了获得足够的表达能力, 使用GAT学习子图中节点之间的权重, 图注意力层的设计如 下: eij=LeakyReLU(Waxi, Wqxj), xi, xj∈Xpw(pu)          (10) 其中Wa, Wq, Wk为可训练的参数, aij为节点xi和其邻居节点xj的注意力权 重; 最后, 将自注意力机制扩展到多头自注意力以学习更 稳定的嵌入; 其中||表示串联运算, 是由第k个注意力机制ak计算的归一化注意力系数, Wk是经过 线性变换的权 重矩阵; 给定文本 ‑词子图和文本 ‑用户子图节点表示Xpw和Xpu, 将节点表示输入子图注意力网络 后, 得到文本 ‑词子图的节点嵌入 和具有全局关 系信息的文本 ‑用户子图嵌入 Step2.2、 变分图自编码VGAE为图中的节点寻找合适的嵌入向量, 实现图的重构; 解码 模块使用内积和sigmo id函数重建原 始图, 重建的邻接矩阵通过以下公式获得: 其中σ 1为si gmoid函数, 分别代表zpw和zpu的矩阵形式, 目标 是希望重构后的邻接矩阵 尽可能的与原 始矩阵Apw(pu)相似; 由于Zpw和Zpu是通过采样获得, 在重建邻接矩阵的过程中, 噪声会增加重建的难度, 应用 分类交叉熵损失重建邻接矩阵, 该 过程表示 为: 其中m和 分别是Apw(pu)和 中的元素; 除了重建损失外, 为了防止噪声为0并确保模型具有生成能力, 还在损失函数中加入KL 散度, 最小化 意味着优化 概率分布参数 μ和σ, 使其尽可能接 近目标分布, 即高斯分布;权 利 要 求 书 2/4 页 3 CN 114880479 A 3

.PDF文档 专利 基于多级交互和图重构的异构图卷积谣言检测方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多级交互和图重构的异构图卷积谣言检测方法 第 1 页 专利 基于多级交互和图重构的异构图卷积谣言检测方法 第 2 页 专利 基于多级交互和图重构的异构图卷积谣言检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:58:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。