(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210961915.3
(22)申请日 2022.08.11
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 宣琦 陈依萍 彭松涛 阮中远
(74)专利代理 机构 杭州天正专利事务所有限公
司 33201
专利代理师 楼明阳
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
H04L 9/40(2022.01)
(54)发明名称
一种基于图结构的无监督BGP异常检测方法
及系统
(57)摘要
一种基于图结构的无监督BGP异常检测方
法, 包括以下步骤: S1: 获取数据集进行数据清理
和规整; S2: 相似性构建邻接矩阵, 生成图结构;
S3: 构建时空模型, 重构时序信息; S4: 设计k ‑
means变体和损失函数, 重复训练模型; S5: 测试
集异常检测及其可视化。 本发明还包括一种基于
图结构的无监督BGP异常检测方法的系统, 该系
统由数据预处理模块, 图结构生成模块, 时空模
型构建模块, 模 型训练模块和异常检测模块依次
连接构成。 本发 明提取时序特征相似性生成图结
构, 设计k ‑means变体和损失函数, 获得高准确率
无监督多元时序异常检测模型。
权利要求书3页 说明书9页 附图4页
CN 115358306 A
2022.11.18
CN 115358306 A
1.一种基于图结构的无监 督BGP异常检测方法, 其特 征在于, 包括以下步骤:
S1: 数据预处理: 获取数据集作为训练集和测试集, 对数据集进行数据清理和数据规
整, 获得只包 含时间戳和序列特 征的数据集;
S2: 图结构生成: 计算数据集时间序列之间的相似性, 将时间序列作为节点, 利用相似
时间序列构建连边, 遍历所有节点对后得到邻接矩阵, 生成图结构;
S3: 时空模型搭建: 将训练集图结构的邻接矩阵和时间序列的特征信息输入GCN(graph
convolution network)模型进行信息聚合、 编码, 对输出的时序信息重构, 获得新的时间序
列数据列表;
S4: 模型训练: 对新的时间序列表进行基于k ‑means变体的无监督检测, 根据聚类结果
设计损失函数, 进行反向传播, 实现模型参数 更新, 重复多次S3和S4 步骤后停止训练;
S5: 异常检测: 将测试集的邻接矩阵和特征信息输入训练后的模型, 输出模型分类结
果, 可视化GCN模型输出和异常检测输出。
2.如权利要求1所述的一种基于图结构的无监督BGP异常检测方法, 其特征在于: 所述
步骤S1具体包括:
S1.1: 公开数据集上下载不同时段的BGP数据集, 分别作为训练集和测试集, 获取有关
时间戳及其特 征的数据列表;
S1.2: 将所有数据的特 征列表进行 数据清理;
S1.3: 将特 征数据进行 取整计算, 得到可以用于模型使用的无 标签时间序列数据集。
3.如权利要求1所述的一种基于图结构的无监督BGP异常检测方法, 其特征在于: 所述
步骤S2具体包括:
S2.1: 时间序列数组表示为X=(x1,x2,…,xi,…,xn), 其中xi表示单个时间序列, n表示
时间 序列的 个数 , 计算当前时间 序列
与 另一时间 序列
之间的距离, 其中
表示时间序列xi的第c个特征, 使用DTW
(Dynamic Time Warping)距离作为时间序列相似度 度量算法:
其中
表示特征
和
之间的差值,
表示累计距离, 累计距离为当前格
点距离
与可以到达该点的最小的邻近元素的累积距离之和, 重复计算公式1最终
得到
为时间序列xi和xj之间的DTW距离;
S2.2: 分别计算时间序列xi与其他时间序列x1,x2,…,xn,(n≠i)的距离, 将距离结果由
小到大排序, 将排名前十的距离对应 的时间序列定义为时间序列xi的相似时间序列, 构建
邻接矩阵A, A内互为相似时间序列的对应元 素Aij表示为1, 其余表示为0:
S2.3: 将时间序列 X=(x1,x2,…,xi,…,xn)作为图结构的节点, 其邻 接矩阵为A, 生成描
述时间序列相似性的无向图G。
4.如权利要求1所述的一种基于图结构的无监督BGP异常检测方法, 其特征在于: 所述权 利 要 求 书 1/3 页
2
CN 115358306 A
2步骤S3具体包括:
S3.1: 将训练集图结构的邻接矩阵和时间序列的特征信息输入两层GCN, 分别获得隐藏
层输出hout1和模型的最终输出 yout2, 这里分别设置了隐藏层的特征聚合输出特征为40, 最终
输出特征个数为2, 其中GCN层与层之间的传播方式为:
其中
I为单位矩阵,
是
的度矩阵, H是每一层的特 征, σ 是非线性激活函数,
这里选取ReLU作为激活函数;
S3.2: 对yout2进行数据增强, 设定时间长度为5, 步长为1的滑动窗口, 遍历yout2, 即将
yout2向前扩充4个数值与x1相同的时间序列, 获得重构时间序列数据列表, 其中每个时间序
列重构为zi=xi‑4+xi‑3+xi‑2+xi‑1+xi, 得到Z=(z1,z2,…,zn)。
5.如权利要求1所述的一种基于图结构的无监督BGP异常检测方法, 其特征在于: 所述
步骤S4具体包括:
S4.1: 对新的时间序列表进行基于k ‑means变体的无监督检测, 其 中k=2, k为最终聚类
划分的类别 数, k‑means变体第一步初始选取首个时间序列以及与它相距最远的一点作为
两个聚类中心, 第二步分别对时间序列计算与聚类中心点的欧几里得距离, 划分归属类别,
第三步重新计算与首个时间序列的距离更新聚类的中心点, 重复上述操作, 当更新后的中
心点的位置变化小于设定阈值后, 停止更新聚类中心, 输出聚类结果;
S4.2: 根据聚类结果设计损失函数, 对输入时间序列做数据归一化, 对基数较大的一类
定义为
求取距离原点的距离均值dmean, 其中j表示基数较大的类别包含
的时间序列的个数;
S4.3: 计算类内距离, 对基数较大的一类
求取到dmean的距离
对距离求平方和得到
S4 .4 : 计算类间距离 , 对基数较小的一类中的每个时间序列定义为
求取到dm e a n的 距离
对距离求平方 和得到
S4.5: 设计模型损失函数
使模型两类之间差距增大, 类内差距减
小, 扩大类别可识别性;
S4.6: 根据loss训练模型, 更新模型参数, 每一次参数更新作为一次迭代过程, 重复50
轮S3和S4 步骤后停止训练, 保存最终模型。
6.如权利要求1所述的一种基于图结构的无监督BGP异常检测方法, 其特征在于: 所述
步骤S5具体包括:
S5.1: 将测试集数据的时间序列特征信息和通过S2步骤计算得到的图结构的邻接矩阵
输入训练完的模型中, 获得 预测结果;
S5.2: 得到时间序列的无监督异常检测结果, 即获得所有时间序列的标签, 对检测结果
进行处理, 排除正常情况 下的数据波动影响;
S5.3: 可视化异常检测结果, 分别可视化GCN模型输出, 时间序列聚类结果以及异常检权 利 要 求 书 2/3 页
3
CN 115358306 A
3
专利 一种基于图结构的无监督BGP异常检测方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:27:23上传分享