(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210193379.7
(22)申请日 2022.03.01
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区南 山街道崇文
路2号
(72)发明人 秦红星 徐超群
(74)专利代理 机构 重庆市恒信知识产权代理有
限公司 5 0102
专利代理师 高敏
(51)Int.Cl.
G06F 9/451(2018.01)
G06K 9/62(2022.01)
G06Q 10/06(2012.01)
G06Q 50/26(2012.01)
(54)发明名称
基于流动人口数据特征聚类的城市集聚效
应可视分析方法
(57)摘要
本发明请求保护一种基于流动人口数据特
征聚类的城市集聚效应可视分析方法, 该方法包
括: S1: 转换原始数据集d1的格式, 统一数据项中
包含的所有地理位置和经纬度坐标; S2: 利用先
验知识筛选出数据集中的相关数据项构成新的
数据集d2; S3: 对属于城市群中的城市的地理坐
标进行DBSCAN密度聚类; S4: 对数据集d2中所有
城市的流入人口中第三产业所占的百分比进行
K‑Means聚类; S5: 将两次聚类结果标记在数据集
d2、 d3中; S6: 将数据集d2、 d3在前端页面使用
ECharts图表库可视化展 示并添加鼠标交互; S7:
分析中心城市的辐射能力, 使用引力模型分析城
市之间的联系。 本发明提出了一种新的可视化方
法来判断城市群集聚效应的强弱, 并且对于全国
范围内的城市都可适用。
权利要求书2页 说明书7页 附图4页
CN 114661393 A
2022.06.24
CN 114661393 A
1.基于流动人口数据特征聚类的城市集聚效应可视分析方法, 其特征在于, 包括以下
步骤:
S1: 输入原始流动人口动态监测数据集d1, 将原始数据集d1的.dta格式数据, 转换成
csv或者json格式文件, 将每一条数据的流入地、 流出地、 户籍地等地理位置信息统一成经
纬度坐标, 写入到数据集d1中;
S2: 利用先验知识筛 选出数据集中的相关价 值数据项构成新的数据集d2;
S3: 提取出全国所有城市群中的城市的经纬度坐标形成数据集d3, 对d3进行DBSCAN密
度聚类, 该算法有两个参数: 半径eps和密度阈值Mi nPts;
S4: 对数据集d2中所有城市的流入人口中第三产业所占的百分比进行 K‑Means聚类;
S5: 将两次聚类结果标记在数据集d2、 d3中;
S6: 将数据集d2、 d3在前端页面使用E Charts图表库可视化展示并添加鼠标交 互;
S7: 分析中心城市的辐射能力, 使用引力模型分析城市之间的联系。
2.根据权利要求1所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法,
其特征在于, 所述步骤S2具体包括: 筛选出数据集d1 中有价值的数据项, 有价值的数据项包
括: 流入地、 职 业、 所属产业、 薪资、 当地交通评价、 社区生活评价在内的数据, 构成新的数据
集d2。
3.根据权利要求1所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法,
其特征在于, 所述步骤S 3中, 提取出全国所有城市群中的城市的经纬度坐标形成数据集d3,
对d3进行DBSCAN密度聚类, 该算法有两个参数: 半径eps和密度阈值Mi nPts, 具体步骤为:
(1)以每一个数据点xi为圆心, 以eps为半径画一个圆圈, 这个圆圈被称 为xi的eps邻域;
对这个圆圈内包含的点进行计数, 如果一个圆圈里面的点的数目超过了密度阈值MinPts,
那么将该圆圈的圆心 记为核心点, 又称核心对象;
(2)如果某个点的eps邻域内点的个数小于密度阈值但是落在核心点的邻域内, 则称该
点为边界点; 既不是核心点也不是边界点的点, 就是噪声点; 核心点xi的eps邻域内的所有
的点, 都是xi的直接密度直达;
(3)如果xj由xi密度直达, xk由xj密度直达...xn由xk密度直达, 那么, xn由xi密度可达, 这
个性质说明了由密度直达的传递 性, 可以推导出密度可达;
(4)如果对于xk, 使xi和xj都可以由xk密度可达, 那么, 就称xi和xj密度相连, 将密度相连
的点连接在一 起, 就形成了聚类簇 。
4.根据权利要求3所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法,
其特征在于, 所述DBSCAN算法处理后的聚类样本点分为: 核心点core points, 边界点
border points和噪声点 noise, 这三类样本点的定义如下:
核心点: 对于数据 集d3, 若样本p的ε邻域内至少包含MinPts个样本, 包括样本p, 那么称
样本p为核心点, 核心点p的ε邻域内的样本数量满足:
Nε(p)≥MinPts
其中ε邻域中任一 点q与核心点p的距离为dist(p, q), 则Nε(p)的表达式为:
Nε(p)={q∈d3|dist(p, q)≤ ε }
边界点: 对于非核心点的样本b, 若b在任意核心点p的ε邻域内, 那么样本b称为边界点,
即:权 利 要 求 书 1/2 页
2
CN 114661393 A
2噪声点: 对于非核心点的样本n, 若n不在任意核心点p的ε邻域内, 那么样本n称为噪声
点, 即:
只要任意两个样本点是密度直达或密度可达的关系, 那么该两个样本点归为同一簇
类; 因此, DBSCA N算法从数据集d3中随机选择一个核心 点作为“种子”, 由该种子出发确定相
应的聚类簇, 当遍历完所有 核心点时, 算法结束, 得到聚类结果。
5.根据权利要求3所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法,
其特征在于, 所述步骤S4中对数据集d2中所有城市的流入 人口中第三产业所占的百分比进
行K‑Means聚类, 具体包括:
计算属于第三产业的人数的百分比, 使用K ‑Means聚类将百分比的区间分成4类, 范围
从大到小分别代 表核心城市、 二级城市、 三级城市、 普通城市, 具体步骤如下:
(1)开始时选择4个类的初始中心, 在第k次迭代中, 对任意一个样本, 求其到4个中心的
距离;
(2)将该样本归到距离最短的中心所在的类, 利用均值在内的方法更新该类的中心值;
(3)对于所有 的4个聚类中心, 如果经过上述迭代法更新后, 值保持不变, 则迭代结束;
否则, 则继续迭代, 最后得到聚类结果。
6.根据权利要求5所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法,
其特征在于, 所述步骤S6中, 使用Django框架, 将后端数据在前端使用Echarts图标库进行
可视化, 修改图表库中China.js中的属性, 使之能可视化出中国地图上每个省份、 城市、 区
县的边界, 添加鼠标圈选和图表联动功能。
7.根据权利要求6所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法,
其特征在于, 所述步骤S7分析中心城市的辐射能力, 使用引力模型分析城市之间的联系, 具
体包括: 对鼠标在地图上选中的范围, 根据K ‑Means聚类结果分析该范围的中心城市的经济
带动能力, 判别 该城市的类型, 在哪种产业上比较强, 有何短板; 将DBSCAN聚类结果跟实际
城市群分布进 行对比, 分析城市群形成的 隐藏条件; 使用引力模型, 判断鼠标选中的范围内
流动人员来往强弱, 用i、 j分别表示两个城市或地区, 使用引力模型来表示区域联系。
8.根据权利要求7所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法,
其特征在于, 所述使用引力模型来表示区域联系, 其表达式为:
Iij为两个城市或地区的联系引力值, Qi、 Qj为两个城市(地区)的来往人数, Dij为城市间
的直线距离, g为城市间的引力调节系数, 可以调节该参数来优化可视化效果, 区域之间可
用连线的粗细表示强弱, 引力值越大, 区域联系越强。权 利 要 求 书 2/2 页
3
CN 114661393 A
3
专利 基于流动人口数据特征聚类的城市集聚效应可视分析方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:26:47上传分享