(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210704879.2
(22)申请日 2022.06.21
(71)申请人 四维创智 (北京) 科技发展 有限公司
地址 100089 北京市海淀区上地六街28号
院2号楼4层40 3
(72)发明人 蔡挺 孙基栩 司红星
(74)专利代理 机构 北京维正专利代理有限公司
11508
专利代理师 董凯特
(51)Int.Cl.
H04L 9/40(2022.01)
H04L 67/02(2022.01)
G06F 16/35(2019.01)
G06F 16/36(2019.01)
(54)发明名称
异常流量检测的方法、 装置、 电子设备及可
读存储介质
(57)摘要
本申请涉及一种异常流量检测的方法、 装
置、 电子设备及可读存储介质, 涉及网络安全技
术领域。 该方法包括: 获取基于Web日志构建的知
识图谱, 基于知识图谱获取实体和实体 之间的关
系以及各个实体 分别对应的属性信息, 实体和实
体之间的关系包括: IP实体和URI实体之间的关
系, 各个实体分别对应的属性信息包括: IP实体
的属性信息和URI实体的属性信息, 基于实体和
实体之间的关系以及各个实体分别对应的属性
信息确定Web日志数据特征集合, 对Web日志数据
特征集合进行异常流量检测。 本申请提供的异常
流量检测的方法、 装置、 电子设备及可读存储介
质可以通过多方面的数据特征进行异常检测, 进
而降低发现异常行为的难度。
权利要求书3页 说明书19页 附图2页
CN 115051863 A
2022.09.13
CN 115051863 A
1.一种异常流 量检测的方法, 其特 征在于, 包括:
获取基于Web日志构建的知识图谱;
基于所述知识图谱获取实体和实体之间的关系以及各个实体分别对应的属性信 息, 所
述实体和实体之间的关系包括: IP实体和统一资源标识符URI 实体之间的关系, 所述各个实
体分别对应的属性信息包括: IP实体的属性信息和URI实体的属性信息;
基于所述实体和实体之间的关系以及所述各个实体分别对应的属性信 息确定Web日志
数据特征集合;
对所述Web日志数据特 征集合进行异常流 量检测。
2.根据权利要求1所述的方法, 其特征在于, 所述各个实体分别对应的属性信息还包
括: URI抽象实体的属性信息、 服 务实体的属性信息以及服 务器实体的属性信息;
所述基于所述实体和实体之间的关系以及所述各个实体分别对应的属性信息确定Web
日志数据特 征集合, 包括:
基于所述IP实体的属性信息、 所述URI实体的属性信息、 所述URI抽象实体的属性信息、
所述服务实体的属性信息、 所述服务器实体的属性信息 以及所述各实体与实体之间的关
系, 计算节点中心度特征以及URI网页排名特征, 所述节点中心度特征包括: IP节点的度中
心性、 URI抽象节点的度中心 性、 服务节点的度中心 性以及服务器节点的紧密中心 性中的至
少一项, 所述URI网页排名特 征用于表征 各个URI网页被访问的次数;
基于所述IP实体的属性信息、 所述URI实体的属性信息、 所述URI抽象实体的属性信息
以及所述各实体与实体之间的关系进行向量 化处理, 得到向量 化处理后的信息;
基于所述节点中心度特征、 所述URI网页排名特征以及所述向量化处理后的信息, 确定
所述Web日志数据特 征集合。
3.根据权利要求2所述的方法, 其特征在于, 所述向量化处理后的信息包括: URI类型特
征、 IP特征、 状态码特征、 请求类型特征、 协议特征、 每个IP单位时间HTTP请求数特征、 每个
IP单位时间请求类型特征、 每个IP单位时间请求的URI类型特征和URI抽象特征中的至少一
项;
所述IP实体与URI实体之间的关系包括: IP实体与URI实体之间的关系属性, 所述IP实
体与URI实体之间的关系属性包括: IP与URI之间的请求类型;
其中, 基于URI实体的属性信息进行向量 化处理, 得到URI类型 特征, 包括:
对URI实体的属性信息进行语句表示学习, 得到URI嵌入表示;
对所述URI嵌入表示进行聚类处 理, 得到URI类型 特征;
其中, 所述基于所述IP实体的属性信息、 所述URI实体的属性信息、 所述URI抽象实体的
属性信息以及所述各实体和实体之间的关系进行向量化处理, 得到 向量化处理后的信息,
包括:
基于所述IP与URI之间请求类型以及所述URI类型特征进行统计处理, 得到统计后的数
据, 所述统计后的数据包括: 所述每个IP单位时间HTTP请求数特征、 所述每个IP单位时间请
求类型特征以及所述每 个IP单位时间请求的URI类型 特征中的至少一项;
将所述IP实体的属性信息、 所述IP实体与URI实体之间的关系属性以及所述URI抽象实
体的属性信息由非数值数据转换为数值数据, 得到数值转换后的信息, 所述数值转换后的
信息包括: 所述IP特征、 所述状态码特征、 所述请求类型特征、 所述协议特征、 所述URI层级权 利 要 求 书 1/3 页
2
CN 115051863 A
2特征、 所述URI参数个数特征、 所述URI根目录词嵌入 特征和所述URI资源文件类型词嵌入 特
征中的至少一项。
4.根据权利要求3所述的方法, 其特征在于, 所述IP实体与URI实体之间的关系属性还
包括: IP与URI之间的状态码和IP与URI之间的协议;
所述将所述IP实体的属性信息、 所述IP实体与URI实体之间 的关系属性以及 所述URI抽
象实体的属性信息由非数值数据转换为数值数据, 得到数值 转换后的信息, 包括:
对所述IP实体 的属性信息、 所述IP与URI之间的状态码、 所述IP与URI之间的请求类型
以及所述IP与URI之 间的协议进行编码, 得到编码处理后的特征, 所述编码处理后的特征包
括: IP特征、 状态码特 征、 请求类型 特征以及协议特 征;
基于所述URI抽象实体的属性信息, 确定根目录文本、 资源文件类型、 所述URI层级特征
和所述URI 参数个数 特征;
基于所述根目录文本和所述资源文件类型, 生成所述URI根目录词嵌入特征和所述URI
资源文件类型词嵌入特 征。
5.根据权利要求4所述的方法, 其特征在于, 所述基于所述根目录文本和所述资源文件
类型, 生成所述URI 根目录词嵌入特 征和所述URI资源文件类型词嵌入特 征, 之后还 包括:
对所述URI根目录词嵌入特征和所述URI资源文件类型词嵌入特征池化处理, 得到池化
处理后的URI 根目录词嵌入特 征和池化后的URI资源文件类型词嵌入特 征;
将池化处理后的URI根目录词嵌入特征、 池化后的URI资源文件类型词嵌入特征、 所述
URI层级特 征和所述URI 参数个数 特征确定为四维特 征;
其中, 所述基于所述节点中心度 特征、 所述URI网页排名特征以及所述向量化处理后的
信息, 确定所述 Web日志数据特 征集合, 包括:
基于所述节点中心度特征、 所述URI网页排名特征、 所述URI类型特征、 所述统计后的数
据以及所述四维特 征, 确定所述 Web日志数据特 征集合。
6.根据权利要求5所述的方法, 其特征在于, 所述数据特征集合还包括: 请求字节数特
征; 所述请求字节数 特征是基于所述 IP实体与URI实体之间的关系确定的;
所述方法还 包括:
对所述请求字节数 特征进行等频分箱处 理;
对所述每个IP单位时间HTTP请求数特征、 所述每个IP单位时间请求类型特征和所述每
个IP单位时间请求的URI类型 特征进行等距分箱处 理。
7.根据权利要求6所述的方法, 其特 征在于, 所述方法还 包括以下任一项:
对所述Web日志特 征集合中的各个特 征进行归一 化处理;
确定待进行归一化的特征集合, 并对所述待进行归一化的特征集合中的各个特征进行
归一化处理, 所述待进 行归一化的特征集合属于所述Web日志数据特征集合, 且不包含所述
每个IP单位时间HTTP请求数特征、 所述每个IP单位时间请求类型特征、 所述每个IP单位时
间请求的URI类型 特征以及所述请求字节数 特征;
其中, 所述对所述 Web日志数据特 征集合进行异常流 量检测, 包括:
基于归一 化处理后的所述 Web日志特 征集合进行异常流 量检测; 或者,
基于等频分箱 处理结果、 等距分箱 处理结果以及归一化处理后的待进行归一化的特征
集合进行异常流 量检测。权 利 要 求 书 2/3 页
3
CN 115051863 A
3
专利 异常流量检测的方法、装置、电子设备及可读存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:42上传分享