[发明专利]一种利用k均值聚类算法识别就业地的方法在审
申请号: | 202110255241.0 | 申请日: | 2021-03-08 |
公开(公告)号: | CN112966750A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 吴晓;胡明星;邵云通;张瑞琪;何彦 | 申请(专利权)人: | 东南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京同辉知识产权代理事务所(普通合伙) 11357 | 代理人: | 张明利 |
地址: | 210096 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 均值 算法 识别 就业 方法 | ||
1.一种利用k均值聚类算法识别就业地的方法,其特征在于,包括以下步骤:
根据区域内目标基站的经纬度信息数据生成泰森多边形,并以泰森多边形作为待识别单元;
根据区域内的两个相邻工作日的手机信令数据进行清洗并统计所有用户进入和离开所述待识别单元行为发生的时间节点;
将所有用户的最晚离开时间节点减去对应用户的最早进入时间节点获取用户的停留时间长度;
采用k均值聚类算法对所述用户最晚离开时间节点、所述用户最早进入时间节点和所述用户的停留时间长度进行聚类分析获取质心,并根据所述质心计算所述质心之间进出时间点重叠/间隔区间;
根据满足所述停留时间长度阈值的质心数量、所述停留时间长度的正负方向和所述进出时间点重叠/间隔区间判断所述待识别单元是否为就业地及就业地种类。
2.根据权利要求1所述的识别就业地的方法,其特征在于,所述最晚离开时间节点的选取包含以下步骤:
若用户满足在第一天工作日存在离开所述待识别单元的记录,则选取所述第一天工作日的最晚离开时间节点为所述最晚离开时间节点;
若用户不满足在第一天工作日存在离开所述待识别单元的记录,则选取所述第二天工作日的最晚离开时间节点为所述最晚离开时间节点。
3.根据权利要求1所述的识别就业地的方法,其特征在于,所述质心之间进出时间点重叠/间隔区间的计算包含以下步骤:
任选两个满足所述停留时间长度阈值的质心记为质心A和质心B,将所述质心A和所述质心B的进出时间点分别记为(Ia,Ea)、(Ib,Eb);
根据L=||Ia-Eb|-(|Ia-Ea|+|Ib-Eb|)|,计算所述进出时间点重叠/间隔区间L。
4.根据权利要求1所述的识别就业地的方法,其特征在于,所述就业地种类的具体判断过程,包含以下步骤:
满足所述停留时间长度大于0、绝对值大于8h的质心数量大于等于1、所述进出时间点重叠/间隔区间存在且大于8h或者所述进出时间点重叠/间隔区间不存在,则判定所述待识别单元为一班就业地;
满足所述停留时间长度小于0、绝对值大于8h的质心数量大于等于1、所述进出时间点重叠/间隔区间不存在,则判定所述待识别单元为居住地;
满足所述停留时间长度大于0、绝对值大于5.5h的质心数量大于等于2、所述进出时间点重叠/间隔区间小于2h且所述进出时间点重叠/间隔区间的数量大于等于1,则判定所述待识别单元为两班倒就业地;
满足所述停留时间长度大于0、绝对值大于5.5h的质心数量大于等于3、所述进出时间点重叠/间隔区间小于2h且所述进出时间点重叠/间隔区间的数量大于等于2,则判定所述待识别单元为三班倒就业地;
所述待识别单元的判定结果既为居住地,又为一班就业地、两班倒就业地或三班倒就业地中的任一个,则判断所述待识别单元为居住混合用地。
5.根据权利要求1所述的识别就业地的方法,其特征在于,所述k均值聚类算法中的K值设定为5。
6.根据权利要求1所述的识别就业地的方法,其特征在于,所述k均值聚类算法计算前,筛除所述停留时间长度的绝对值大于12h和小于4h对应用户的手机信令数据;所述k均值聚类算法计算后,筛除簇内样本量小于总样本量10%的簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110255241.0/1.html,转载请声明来源钻瓜专利网。