[发明专利]基于时空数据挖掘的地铁乘客分类方法有效
申请号: | 201310683227.6 | 申请日: | 2013-12-12 |
公开(公告)号: | CN103699601A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 赵娟娟;张帆;田臣;须成忠;白雪;邹瑜斌;罗俊 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 沈祖锋;郝明琴 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时空 数据 挖掘 地铁 乘客 分类 方法 | ||
技术领域
本发明涉及属于信息数据处理领域,具体涉及基于时空数据挖掘的地铁乘客分类方法。
背景技术
目前,智能卡已经广泛应用于银行、医疗、交通、校园等各个领域,具有方便、快捷等优点。智能卡作为一种公共交通付费手段已经广泛应用于公交、地铁、出租、轮渡、停车场等城市交通领域。由于交通智能卡省钱、便捷等特点,交通智能卡作为公共交通出行付款方式的乘客也日益增多,乘客的乘车交易数据也愈发完整和准确。
交通智能卡作为一种付费手段,在大数据时代,如何将智能卡收集到丰富的用户出行数据有效分析并用于交通决策及乘客生活特征分析,对于营造优质公共交通服务、方便市民的日常出行,有效了解市民的生活特征、生活规律具有重要的研究意义。代替传统的通过人工调查分析乘客行为特征的交通智能卡交易数据的研究越来越具有可行性。
据统计,在深圳,选择刷SZT卡作为公共交通出行付款方式的乘客已达到一千万。由于地铁运量大、快捷、时间准、安全可靠、不受天气和地面交通的干扰等有利条件,对乘客具有很大的吸引力,深圳地铁已成为深圳市民的首选的公共交通出行方式,截止2013年,深圳地铁已有5条线路,131座车投入运营,客流量达到250万人次/天,已占整个深圳市选择公共交通出行客流量的三分之一。
现有对乘客的分类主要是结合智能卡的类型分析其相似性和差异性,例如学生卡、老年人卡、普通卡,而并没有结合乘客自身的乘车特征对乘客做聚类。
发明内容
本发明要解决的技术问题在于提供一种基于时空数据挖掘的地铁乘客分类方法,具有效性和准确性。
本发明的技术方案包括一种基于时空数据挖掘的地铁乘客分类方法,包括步骤:
S1、基础数据计算,包括智能卡有效统计和站点间相似度计算;
S2、数据预处理:S21、过滤缺失字段的交易记录;S22、将所述智能卡的所有交易记录按时间排序,并计算所述智能卡中的每一乘车记录;S23、计算每一所述智能卡的总刷卡天数;S24、将S22、S23中数据结果汇总;S25、对每一所述智能卡执行步骤S21-S24,直到全部所述智能卡均被处理;S26、对输出结果进行统计,计算乘车天数概率分布;
S3、乘客分类:S31、提取每一所述智能卡的所述乘车记录;S32、判断刷卡天数是否小于阈值,是则输出类别1:极少出行乘客,转向S36;否则执行S33;S33、利用基于时间的用户出行规律算法Tm-ODCluster,计算最密集的时间段Sm和时间密集概率Pt,并判断是否时间规律,是则为时间规律,转向S34,否则转向S35;S34、在所述时间段Sm内,利用基于空间的用户出行规律算法Sp-ODCluster,判断出行地点是否规律,是则输出类别4:时间和空间规律性乘客,否则输出类别2:单时间规律性乘客;之后转向S36;S35、利用所述基于空间的用户出行规律算法Sp-ODCluster,判断全天时间内出行地点是否规律,是则输出类别3:单空间规律性乘客,否则输出类别5:时间和空间均不规律乘客;S36、判断全部所述智能卡是否均被处理,是则转向S37,否则转向S31;S37、乘客分类结束。
优选地,所述基础数据包括智能卡交易表、地铁终端表、地铁线路表;
所述智能卡交易表包括CardID、TrmnlID、TrnsctTime、TrnsctyType;其中,所述CardID为智能卡的唯一标识;所述TrmnlID为地铁站刷卡终端的唯一标示,所述TrnsctTime是刷卡时间,所述TrnsctTime为进出站类型;
所述地铁线路表包括RouteID、PathInfo、Type;其中,所述routeID为线路名称,所述PathInfo为途径站点,所述Type为线路类型。
优选地,所述智能卡有效统计为测试前、测试中、测试后均有交易记录的智能卡;所述站点间相似度计算为判断站点之间的站点数量是否小于等于1。
优选地,所述步骤S22计算所述智能卡中的每一乘车记录为匹配所述乘车记录的起点和终点,所述乘车记录的格式为:进站站名、出站站名、进站时间、出站时间,乘车时间。
优选地,所述基于时间的用户出行规律算法Tm-ODCluster包括,
S331、以天为周期、30分钟为时段间隔,计算每一天所有时间段的乘车状态(0,1);
S332、计算所述每一时间段的乘车天数Ti,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310683227.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置