说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210507491.3 (22)申请日 2022.05.10 (71)申请人 广州数智网络科技有限公司 地址 510000 广东省广州市南沙区南沙街 金隆路37号10 01-1024房(仅限办公) (72)发明人 李辉 何幸霖  (74)专利代理 机构 北京科家知识产权代理事务 所(普通合伙) 11427 专利代理师 钟斌 (51)Int.Cl. H04L 9/40(2022.01) G06F 16/36(2019.01) G06N 3/04(2006.01) G06F 16/951(2019.01) H04L 61/4511(2022.01) (54)发明名称 基于知识图谱的网络犯罪智能分析检测方 法 (57)摘要 本发明公开了基于知识图谱的网络犯罪智 能分析检测方法, 包括以下检测步骤: 收集黑灰 产网站数据及其相关数据, 对网站 群体进行标签 区分; 对已标签的黑灰产网站, 获取网站用户数 据, 构建对应用户信息; 构建知识图谱, 将多维度 数据信息在同一层面展开; 知识图谱特征学习; 构建推荐模块, 将知识图谱特征学习应用到推荐 系统。 本技术提升关联分析的有效性, 解决网络 犯罪平台不断规避检测的问题, 辅助公安刑侦打 击网络违法犯罪活动。 权利要求书2页 说明书6页 附图2页 CN 114915468 A 2022.08.16 CN 114915468 A 1.基于知识图谱的网络犯罪智能分析检测方法, 其特 征在于, 包括以下检测步骤: 步骤S101, 收集黑灰产网站数据及其相关数据, 对网站群体进行标签区分: 从数据中心 机房的网络流量 获取首批黑灰产数据, 解析并提取网站信息, 使用新词发现模型, 对获得的 黑灰产类别数据做新词发现, 并人工筛选得到多个黑灰产类别 关键词, 将这些关键词输入 搜索引擎, 通过爬虫程度获取相关 网站, 对提取的数据信息, 用正则提取相关合作伙伴网站 及其域名, 判断是否为黑白名单, 再构建全面、 多维的标签体系, 剔除数据中的异常值并将 数据标准 化, 为网站数据创建标签, 并对数据进行修 正优化调整; 步骤S102, 对已标签的黑灰产网站, 获取网站用户数据, 构建对应用户信息: 使用授权 工具对域名网站抓取注册用户个人信息、 网站相关信息、 行为信息, 构建全面、 多维的标签 体系, 对数据清洗, 剔除异常值和去重, 为用户数据创建标签, 并对数据进行优化调整; 步骤S103, 构建知识图谱, 将多维度数据信息在同一层面展开: 明确现有 的网站数据、 用户数据、 网站 黑名单、 网站白名单等信息, 对图谱设计, 定义 五种实体、 实体属性及实体关 系, 用正则和模板提取网站信息相关合作网站的知识数据, 再存放在非关系类型数据库 Neo4j中, 利用Dedupe工具根据网站的标题和域名等信息进行融合、 去重, 最后通过编写的 Python接口程度将数据导入Neo 4j中; 步骤S104, 知识图谱特征学习: 从网页中发现相关网站并提取域名, 并与知识图谱中的 网站实体进 行匹配, 根据所有匹配到的实体, 在原始的知识图谱中抽取子图, 使用基于距离 的翻译模型学习特征, 得到实体和关系向量, 再通过上下文实体特征 的平均值获取实体的 上下文实体特 征; 步骤S105, 构建推荐模块, 将知识图谱特征学习应用到推荐系统: 先使用卷积神经网络 KCNN的方法学习候选网站向量, 并用AttentionNet来判断该类型网站数据对候选网站的重 要程度, AttentionNetwork通过将向量拼接并经过DNN来计算最后的权重, 利用 AttentionNet的权重加权用户历史数据可以得到用户的向量, 最后将该类型数据向量和候 选网站向量拼接并通过DNN得到候选网站对该类型的偏爱概率, 模型效果根据找出最大 的 偏爱概率的类型为该网站的候选标签, 通过 下载应用网站类型调取其 合作网站。 2.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法, 其特征在于, 在 步骤S101中, 解析并提取网站信息包括网页三要素文本: 标题、 关键词和描述。 3.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法, 其特征在于, 在 步骤S101中, 构建标签体系时, 由于自身数据有限, 需要第三方的数据作为补充, 包括网站 备案信息、 网站域名页流 量信息、 资产指纹信息等。 4.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法, 其特征在于, 在 步骤S102中, 抓取注册用户个人信息、 网站相关信息、 行为信息, 其中, 用户个人信息包括姓 名、 身份证号码、 性别、 地区、 年龄等, 网站相关信息包括账号、 密码、 手机号、 银行卡等, 行为 信息包括注 册、 登陆时间、 支付、 交易时的IP地址、 MAC地址、 手机IM EI号等。 5.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法, 其特征在于, 在 步骤S102 中, 构建标签体系时, 需要第三方的数据作为补充, 包括电话号码注册查询、 身份 证号码验证等。 6.根据权利要求1所述的基于知识图谱的网络犯罪智能分析检测方法, 其特征在于, 在 步骤S103中, 对图谱设计, 定义的五种实体包括网站实体、 网站类型标签实体、 用户实体、 网权 利 要 求 书 1/2 页 2 CN 114915468 A 2站黑名单实体和网站白名单实体, 定义的实体属性包括网站数据 表中的数据字段为网站实 体属性、 用户数据表中的数据字段为用户实体属 性、 网站黑名单中的数据字段为黑名单实 体属性和网站白名单中的数据字段为白名单实体属性, 定义的实体关系包括(网站实体, 类 型, 类型实体)、 (网站实体, 注册, 网站实体)、 (网站实体, 合作, 网站实体)、 (网站白名单实 体, 白名单, 网站实体)和(网站黑名单实体, 黑名单, 网站实体)。权 利 要 求 书 2/2 页 3 CN 114915468 A 3

.PDF文档 专利 基于知识图谱的网络犯罪智能分析检测方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱的网络犯罪智能分析检测方法 第 1 页 专利 基于知识图谱的网络犯罪智能分析检测方法 第 2 页 专利 基于知识图谱的网络犯罪智能分析检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:59:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。