专利 一种基于图结构的无监督BGP异常检测方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210961915.3 (22)申请日 2022.08.11 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人宣琦　陈依萍　彭松涛　阮中远　 (74)专利代理机构杭州天正专利事务所有限公司 33201 专利代理师楼明阳 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04L 9/40(2022.01) (54)发明名称一种基于图结构的无监督BGP异常检测方法及系统 (57)摘要一种基于图结构的无监督BGP异常检测方法，包括以下步骤： S1：获取数据集进行数据清理和规整； S2：相似性构建邻接矩阵，生成图结构； S3：构建时空模型，重构时序信息； S4：设计k ‑ means变体和损失函数，重复训练模型； S5：测试集异常检测及其可视化。本发明还包括一种基于图结构的无监督BGP异常检测方法的系统，该系统由数据预处理模块，图结构生成模块，时空模型构建模块，模型训练模块和异常检测模块依次连接构成。本发明提取时序特征相似性生成图结构，设计k ‑means变体和损失函数，获得高准确率无监督多元时序异常检测模型。权利要求书3页说明书9页附图4页 CN 115358306 A 2022.11.18 CN 115358306 A 1.一种基于图结构的无监督BGP异常检测方法，其特征在于，包括以下步骤： S1：数据预处理：获取数据集作为训练集和测试集，对数据集进行数据清理和数据规整，获得只包含时间戳和序列特征的数据集； S2：图结构生成：计算数据集时间序列之间的相似性，将时间序列作为节点，利用相似时间序列构建连边，遍历所有节点对后得到邻接矩阵，生成图结构； S3：时空模型搭建：将训练集图结构的邻接矩阵和时间序列的特征信息输入GCN(graph convolution network)模型进行信息聚合、编码，对输出的时序信息重构，获得新的时间序列数据列表； S4：模型训练：对新的时间序列表进行基于k ‑means变体的无监督检测，根据聚类结果设计损失函数，进行反向传播，实现模型参数更新，重复多次S3和S4 步骤后停止训练； S5：异常检测：将测试集的邻接矩阵和特征信息输入训练后的模型，输出模型分类结果，可视化GCN模型输出和异常检测输出。 2.如权利要求1所述的一种基于图结构的无监督BGP异常检测方法，其特征在于：所述步骤S1具体包括： S1.1：公开数据集上下载不同时段的BGP数据集，分别作为训练集和测试集，获取有关时间戳及其特征的数据列表； S1.2：将所有数据的特征列表进行数据清理； S1.3：将特征数据进行取整计算，得到可以用于模型使用的无标签时间序列数据集。 3.如权利要求1所述的一种基于图结构的无监督BGP异常检测方法，其特征在于：所述步骤S2具体包括： S2.1：时间序列数组表示为X＝(x1,x2,…,xi,…,xn)，其中xi表示单个时间序列， n表示时间序列的个数，计算当前时间序列与另一时间序列之间的距离，其中表示时间序列xi的第c个特征，使用DTW (Dynamic Time Warping)距离作为时间序列相似度度量算法：其中表示特征和之间的差值，表示累计距离，累计距离为当前格点距离与可以到达该点的最小的邻近元素的累积距离之和，重复计算公式1最终得到为时间序列xi和xj之间的DTW距离； S2.2：分别计算时间序列xi与其他时间序列x1,x2,…,xn,(n≠i)的距离，将距离结果由小到大排序，将排名前十的距离对应的时间序列定义为时间序列xi的相似时间序列，构建邻接矩阵A， A内互为相似时间序列的对应元素Aij表示为1，其余表示为0： S2.3：将时间序列 X＝(x1,x2,…,xi,…,xn)作为图结构的节点，其邻接矩阵为A，生成描述时间序列相似性的无向图G。 4.如权利要求1所述的一种基于图结构的无监督BGP异常检测方法，其特征在于：所述权　利　要　求　书 1/3 页 2 CN 115358306 A 2步骤S3具体包括： S3.1：将训练集图结构的邻接矩阵和时间序列的特征信息输入两层GCN，分别获得隐藏层输出hout1和模型的最终输出 yout2，这里分别设置了隐藏层的特征聚合输出特征为40，最终输出特征个数为2，其中GCN层与层之间的传播方式为：其中 I为单位矩阵，是的度矩阵， H是每一层的特征， σ 是非线性激活函数，这里选取ReLU作为激活函数； S3.2：对yout2进行数据增强，设定时间长度为5，步长为1的滑动窗口，遍历yout2，即将 yout2向前扩充4个数值与x1相同的时间序列，获得重构时间序列数据列表，其中每个时间序列重构为zi＝xi‑4+xi‑3+xi‑2+xi‑1+xi，得到Z＝(z1,z2,…,zn)。 5.如权利要求1所述的一种基于图结构的无监督BGP异常检测方法，其特征在于：所述步骤S4具体包括： S4.1：对新的时间序列表进行基于k ‑means变体的无监督检测，其中k＝2， k为最终聚类划分的类别数， k‑means变体第一步初始选取首个时间序列以及与它相距最远的一点作为两个聚类中心，第二步分别对时间序列计算与聚类中心点的欧几里得距离，划分归属类别，第三步重新计算与首个时间序列的距离更新聚类的中心点，重复上述操作，当更新后的中心点的位置变化小于设定阈值后，停止更新聚类中心，输出聚类结果； S4.2：根据聚类结果设计损失函数，对输入时间序列做数据归一化，对基数较大的一类定义为求取距离原点的距离均值dmean，其中j表示基数较大的类别包含的时间序列的个数； S4.3：计算类内距离，对基数较大的一类求取到dmean的距离对距离求平方和得到 S4 .4 ：计算类间距离，对基数较小的一类中的每个时间序列定义为求取到dm e a n的距离对距离求平方和得到 S4.5：设计模型损失函数使模型两类之间差距增大，类内差距减小，扩大类别可识别性； S4.6：根据loss训练模型，更新模型参数，每一次参数更新作为一次迭代过程，重复50 轮S3和S4 步骤后停止训练，保存最终模型。 6.如权利要求1所述的一种基于图结构的无监督BGP异常检测方法，其特征在于：所述步骤S5具体包括： S5.1：将测试集数据的时间序列特征信息和通过S2步骤计算得到的图结构的邻接矩阵输入训练完的模型中，获得预测结果； S5.2：得到时间序列的无监督异常检测结果，即获得所有时间序列的标签，对检测结果进行处理，排除正常情况下的数据波动影响； S5.3：可视化异常检测结果，分别可视化GCN模型输出，时间序列聚类结果以及异常检权　利　要　求　书 2/3 页 3 CN 115358306 A 3

专利 一种基于图结构的无监督BGP异常检测方法及系统

专利一种基于图结构的无监督BGP异常检测方法及系统