说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210193379.7 (22)申请日 2022.03.01 (71)申请人 重庆邮电大 学 地址 400065 重庆市南岸区南 山街道崇文 路2号 (72)发明人 秦红星 徐超群  (74)专利代理 机构 重庆市恒信知识产权代理有 限公司 5 0102 专利代理师 高敏 (51)Int.Cl. G06F 9/451(2018.01) G06K 9/62(2022.01) G06Q 10/06(2012.01) G06Q 50/26(2012.01) (54)发明名称 基于流动人口数据特征聚类的城市集聚效 应可视分析方法 (57)摘要 本发明请求保护一种基于流动人口数据特 征聚类的城市集聚效应可视分析方法, 该方法包 括: S1: 转换原始数据集d1的格式, 统一数据项中 包含的所有地理位置和经纬度坐标; S2: 利用先 验知识筛选出数据集中的相关数据项构成新的 数据集d2; S3: 对属于城市群中的城市的地理坐 标进行DBSCAN密度聚类; S4: 对数据集d2中所有 城市的流入人口中第三产业所占的百分比进行 K‑Means聚类; S5: 将两次聚类结果标记在数据集 d2、 d3中; S6: 将数据集d2、 d3在前端页面使用 ECharts图表库可视化展 示并添加鼠标交互; S7: 分析中心城市的辐射能力, 使用引力模型分析城 市之间的联系。 本发明提出了一种新的可视化方 法来判断城市群集聚效应的强弱, 并且对于全国 范围内的城市都可适用。 权利要求书2页 说明书7页 附图4页 CN 114661393 A 2022.06.24 CN 114661393 A 1.基于流动人口数据特征聚类的城市集聚效应可视分析方法, 其特征在于, 包括以下 步骤: S1: 输入原始流动人口动态监测数据集d1, 将原始数据集d1的.dta格式数据, 转换成 csv或者json格式文件, 将每一条数据的流入地、 流出地、 户籍地等地理位置信息统一成经 纬度坐标, 写入到数据集d1中; S2: 利用先验知识筛 选出数据集中的相关价 值数据项构成新的数据集d2; S3: 提取出全国所有城市群中的城市的经纬度坐标形成数据集d3, 对d3进行DBSCAN密 度聚类, 该算法有两个参数: 半径eps和密度阈值Mi nPts; S4: 对数据集d2中所有城市的流入人口中第三产业所占的百分比进行 K‑Means聚类; S5: 将两次聚类结果标记在数据集d2、 d3中; S6: 将数据集d2、 d3在前端页面使用E Charts图表库可视化展示并添加鼠标交 互; S7: 分析中心城市的辐射能力, 使用引力模型分析城市之间的联系。 2.根据权利要求1所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法, 其特征在于, 所述步骤S2具体包括: 筛选出数据集d1 中有价值的数据项, 有价值的数据项包 括: 流入地、 职 业、 所属产业、 薪资、 当地交通评价、 社区生活评价在内的数据, 构成新的数据 集d2。 3.根据权利要求1所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法, 其特征在于, 所述步骤S 3中, 提取出全国所有城市群中的城市的经纬度坐标形成数据集d3, 对d3进行DBSCAN密度聚类, 该算法有两个参数: 半径eps和密度阈值Mi nPts, 具体步骤为: (1)以每一个数据点xi为圆心, 以eps为半径画一个圆圈, 这个圆圈被称 为xi的eps邻域; 对这个圆圈内包含的点进行计数, 如果一个圆圈里面的点的数目超过了密度阈值MinPts, 那么将该圆圈的圆心 记为核心点, 又称核心对象; (2)如果某个点的eps邻域内点的个数小于密度阈值但是落在核心点的邻域内, 则称该 点为边界点; 既不是核心点也不是边界点的点, 就是噪声点; 核心点xi的eps邻域内的所有 的点, 都是xi的直接密度直达; (3)如果xj由xi密度直达, xk由xj密度直达...xn由xk密度直达, 那么, xn由xi密度可达, 这 个性质说明了由密度直达的传递 性, 可以推导出密度可达; (4)如果对于xk, 使xi和xj都可以由xk密度可达, 那么, 就称xi和xj密度相连, 将密度相连 的点连接在一 起, 就形成了聚类簇 。 4.根据权利要求3所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法, 其特征在于, 所述DBSCAN算法处理后的聚类样本点分为: 核心点core  points, 边界点 border points和噪声点 noise, 这三类样本点的定义如下: 核心点: 对于数据 集d3, 若样本p的ε邻域内至少包含MinPts个样本, 包括样本p, 那么称 样本p为核心点, 核心点p的ε邻域内的样本数量满足: Nε(p)≥MinPts 其中ε邻域中任一 点q与核心点p的距离为dist(p, q), 则Nε(p)的表达式为: Nε(p)={q∈d3|dist(p, q)≤ ε } 边界点: 对于非核心点的样本b, 若b在任意核心点p的ε邻域内, 那么样本b称为边界点, 即:权 利 要 求 书 1/2 页 2 CN 114661393 A 2噪声点: 对于非核心点的样本n, 若n不在任意核心点p的ε邻域内, 那么样本n称为噪声 点, 即: 只要任意两个样本点是密度直达或密度可达的关系, 那么该两个样本点归为同一簇 类; 因此, DBSCA N算法从数据集d3中随机选择一个核心 点作为“种子”, 由该种子出发确定相 应的聚类簇, 当遍历完所有 核心点时, 算法结束, 得到聚类结果。 5.根据权利要求3所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法, 其特征在于, 所述步骤S4中对数据集d2中所有城市的流入 人口中第三产业所占的百分比进 行K‑Means聚类, 具体包括: 计算属于第三产业的人数的百分比, 使用K ‑Means聚类将百分比的区间分成4类, 范围 从大到小分别代 表核心城市、 二级城市、 三级城市、 普通城市, 具体步骤如下: (1)开始时选择4个类的初始中心, 在第k次迭代中, 对任意一个样本, 求其到4个中心的 距离; (2)将该样本归到距离最短的中心所在的类, 利用均值在内的方法更新该类的中心值; (3)对于所有 的4个聚类中心, 如果经过上述迭代法更新后, 值保持不变, 则迭代结束; 否则, 则继续迭代, 最后得到聚类结果。 6.根据权利要求5所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法, 其特征在于, 所述步骤S6中, 使用Django框架, 将后端数据在前端使用Echarts图标库进行 可视化, 修改图表库中China.js中的属性, 使之能可视化出中国地图上每个省份、 城市、 区 县的边界, 添加鼠标圈选和图表联动功能。 7.根据权利要求6所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法, 其特征在于, 所述步骤S7分析中心城市的辐射能力, 使用引力模型分析城市之间的联系, 具 体包括: 对鼠标在地图上选中的范围, 根据K ‑Means聚类结果分析该范围的中心城市的经济 带动能力, 判别 该城市的类型, 在哪种产业上比较强, 有何短板; 将DBSCAN聚类结果跟实际 城市群分布进 行对比, 分析城市群形成的 隐藏条件; 使用引力模型, 判断鼠标选中的范围内 流动人员来往强弱, 用i、 j分别表示两个城市或地区, 使用引力模型来表示区域联系。 8.根据权利要求7所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法, 其特征在于, 所述使用引力模型来表示区域联系, 其表达式为: Iij为两个城市或地区的联系引力值, Qi、 Qj为两个城市(地区)的来往人数, Dij为城市间 的直线距离, g为城市间的引力调节系数, 可以调节该参数来优化可视化效果, 区域之间可 用连线的粗细表示强弱, 引力值越大, 区域联系越强。权 利 要 求 书 2/2 页 3 CN 114661393 A 3

.PDF文档 专利 基于流动人口数据特征聚类的城市集聚效应可视分析方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于流动人口数据特征聚类的城市集聚效应可视分析方法 第 1 页 专利 基于流动人口数据特征聚类的城市集聚效应可视分析方法 第 2 页 专利 基于流动人口数据特征聚类的城市集聚效应可视分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:26:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。