专利 基于流动人口数据特征聚类的城市集聚效应可视分析方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210193379.7 (22)申请日 2022.03.01 (71)申请人重庆邮电大学地址 400065 重庆市南岸区南山街道崇文路2号 (72)发明人秦红星　徐超群　 (74)专利代理机构重庆市恒信知识产权代理有限公司 5 0102 专利代理师高敏 (51)Int.Cl. G06F 9/451(2018.01) G06K 9/62(2022.01) G06Q 10/06(2012.01) G06Q 50/26(2012.01) (54)发明名称基于流动人口数据特征聚类的城市集聚效应可视分析方法 (57)摘要本发明请求保护一种基于流动人口数据特征聚类的城市集聚效应可视分析方法，该方法包括： S1：转换原始数据集d1的格式，统一数据项中包含的所有地理位置和经纬度坐标； S2：利用先验知识筛选出数据集中的相关数据项构成新的数据集d2； S3：对属于城市群中的城市的地理坐标进行DBSCAN密度聚类； S4：对数据集d2中所有城市的流入人口中第三产业所占的百分比进行 K‑Means聚类； S5：将两次聚类结果标记在数据集 d2、 d3中； S6：将数据集d2、 d3在前端页面使用 ECharts图表库可视化展示并添加鼠标交互； S7：分析中心城市的辐射能力，使用引力模型分析城市之间的联系。本发明提出了一种新的可视化方法来判断城市群集聚效应的强弱，并且对于全国范围内的城市都可适用。权利要求书2页说明书7页附图4页 CN 114661393 A 2022.06.24 CN 114661393 A 1.基于流动人口数据特征聚类的城市集聚效应可视分析方法，其特征在于，包括以下步骤： S1：输入原始流动人口动态监测数据集d1，将原始数据集d1的.dta格式数据，转换成 csv或者json格式文件，将每一条数据的流入地、流出地、户籍地等地理位置信息统一成经纬度坐标，写入到数据集d1中； S2：利用先验知识筛选出数据集中的相关价值数据项构成新的数据集d2； S3：提取出全国所有城市群中的城市的经纬度坐标形成数据集d3，对d3进行DBSCAN密度聚类，该算法有两个参数：半径eps和密度阈值Mi nPts； S4：对数据集d2中所有城市的流入人口中第三产业所占的百分比进行 K‑Means聚类； S5：将两次聚类结果标记在数据集d2、 d3中； S6：将数据集d2、 d3在前端页面使用E Charts图表库可视化展示并添加鼠标交互； S7：分析中心城市的辐射能力，使用引力模型分析城市之间的联系。 2.根据权利要求1所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法，其特征在于，所述步骤S2具体包括：筛选出数据集d1 中有价值的数据项，有价值的数据项包括：流入地、职业、所属产业、薪资、当地交通评价、社区生活评价在内的数据，构成新的数据集d2。 3.根据权利要求1所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法，其特征在于，所述步骤S 3中，提取出全国所有城市群中的城市的经纬度坐标形成数据集d3，对d3进行DBSCAN密度聚类，该算法有两个参数：半径eps和密度阈值Mi nPts，具体步骤为： (1)以每一个数据点xi为圆心，以eps为半径画一个圆圈，这个圆圈被称为xi的eps邻域；对这个圆圈内包含的点进行计数，如果一个圆圈里面的点的数目超过了密度阈值MinPts，那么将该圆圈的圆心记为核心点，又称核心对象； (2)如果某个点的eps邻域内点的个数小于密度阈值但是落在核心点的邻域内，则称该点为边界点；既不是核心点也不是边界点的点，就是噪声点；核心点xi的eps邻域内的所有的点，都是xi的直接密度直达； (3)如果xj由xi密度直达， xk由xj密度直达...xn由xk密度直达，那么， xn由xi密度可达，这个性质说明了由密度直达的传递性，可以推导出密度可达； (4)如果对于xk，使xi和xj都可以由xk密度可达，那么，就称xi和xj密度相连，将密度相连的点连接在一起，就形成了聚类簇。 4.根据权利要求3所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法，其特征在于，所述DBSCAN算法处理后的聚类样本点分为：核心点core points，边界点 border points和噪声点 noise，这三类样本点的定义如下：核心点：对于数据集d3，若样本p的ε邻域内至少包含MinPts个样本，包括样本p，那么称样本p为核心点，核心点p的ε邻域内的样本数量满足： Nε(p)≥MinPts 其中ε邻域中任一点q与核心点p的距离为dist(p， q)，则Nε(p)的表达式为： Nε(p)＝{q∈d3|dist(p， q)≤ ε } 边界点：对于非核心点的样本b，若b在任意核心点p的ε邻域内，那么样本b称为边界点，即：权　利　要　求　书 1/2 页 2 CN 114661393 A 2噪声点：对于非核心点的样本n，若n不在任意核心点p的ε邻域内，那么样本n称为噪声点，即：只要任意两个样本点是密度直达或密度可达的关系，那么该两个样本点归为同一簇类；因此， DBSCA N算法从数据集d3中随机选择一个核心点作为“种子”，由该种子出发确定相应的聚类簇，当遍历完所有核心点时，算法结束，得到聚类结果。 5.根据权利要求3所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法，其特征在于，所述步骤S4中对数据集d2中所有城市的流入人口中第三产业所占的百分比进行K‑Means聚类，具体包括：计算属于第三产业的人数的百分比，使用K ‑Means聚类将百分比的区间分成4类，范围从大到小分别代表核心城市、二级城市、三级城市、普通城市，具体步骤如下： (1)开始时选择4个类的初始中心，在第k次迭代中，对任意一个样本，求其到4个中心的距离； (2)将该样本归到距离最短的中心所在的类，利用均值在内的方法更新该类的中心值； (3)对于所有的4个聚类中心，如果经过上述迭代法更新后，值保持不变，则迭代结束；否则，则继续迭代，最后得到聚类结果。 6.根据权利要求5所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法，其特征在于，所述步骤S6中，使用Django框架，将后端数据在前端使用Echarts图标库进行可视化，修改图表库中China.js中的属性，使之能可视化出中国地图上每个省份、城市、区县的边界，添加鼠标圈选和图表联动功能。 7.根据权利要求6所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法，其特征在于，所述步骤S7分析中心城市的辐射能力，使用引力模型分析城市之间的联系，具体包括：对鼠标在地图上选中的范围，根据K ‑Means聚类结果分析该范围的中心城市的经济带动能力，判别该城市的类型，在哪种产业上比较强，有何短板；将DBSCAN聚类结果跟实际城市群分布进行对比，分析城市群形成的隐藏条件；使用引力模型，判断鼠标选中的范围内流动人员来往强弱，用i、 j分别表示两个城市或地区，使用引力模型来表示区域联系。 8.根据权利要求7所述的基于流动人口数据特征聚类的城市集聚效应可视分析方法，其特征在于，所述使用引力模型来表示区域联系，其表达式为： Iij为两个城市或地区的联系引力值， Qi、 Qj为两个城市(地区)的来往人数， Dij为城市间的直线距离， g为城市间的引力调节系数，可以调节该参数来优化可视化效果，区域之间可用连线的粗细表示强弱，引力值越大，区域联系越强。权　利　要　求　书 2/2 页 3 CN 114661393 A 3

专利 基于流动人口数据特征聚类的城市集聚效应可视分析方法

专利基于流动人口数据特征聚类的城市集聚效应可视分析方法