[发明专利]一种基于机器学习的地铁乘客分类方法在审
申请号: | 201910232055.8 | 申请日: | 2019-03-26 |
公开(公告)号: | CN109978056A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 张俊秀;谢侃 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/06;G06Q50/26 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杜鹏飞;杨晓松 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地铁乘客 刷卡数据 基于机器 算法模型 地铁站 分类 预处理 半监督学习 乘客类别 分类效果 建立模型 人工标注 特征构建 影响乘客 影响因素 自动提取 数据集 一卡通 学习 分析 | ||
本发明公开了一种基于机器学习的地铁乘客分类方法,包括下述步骤:步骤一,从一卡通公司获取城市全部地铁站的历史刷卡数据;步骤二,对历史刷卡数据进行预处理,缺失值补0;步骤三,对部分刷卡数据进行人工标注,得到乘客类别,作为半监督学习中的已知类别的数据集,用于初始训练;步骤四,按照实际情况,对地铁站进行等级划分;步骤五,考虑影响地铁乘客类别的影响因素,分析建立模型时所需要的初始特征;本发明考虑影响乘客类别的因素较为全面,利用GBDT算法模型根据已有特征构建出新特征,实现了特征的自动提取,算法模型简单,能解决现有方法分类效果较差等问题,提高了分类的精度。
技术领域
本发明涉及乘客分类技术领域,具体涉及一种基于机器学习的地铁乘客分类方法。
背景技术
随着社会的发展,交通方式越来越多,地铁是很重要的一种出行方式,它对于一个城市的建设具有重要意义,有利于引导和实现城市可持续发展,并且逐渐成为居民出行的首要选择,因此对于地铁乘客进行分类尤为重要。通过对地铁乘客进行分类预测,可以针对不同种类的乘客提供有针对性的服务,可以提高服务质量。
关于地铁乘客分类预测的研究,国内的赵娟娟等人提出了一种“基于时空数据挖掘的地铁乘客分类方法”(CN103699601A),该方法基于时间、空间的用户出行规律算法,通过对乘客的出行进行特征分析,将具有相似特征的乘客聚类,最后完成分类;尹宝才等人提出了“一种基于地铁刷卡数据的乘客出行行为分析方法”(CN105718946A),在分析出行行为时,对乘客进行聚类,但是,这两种方法实现较为繁琐,根据出行规律算法进行计算,计算不方便,并且没有考虑天气属性等外在因素对乘客类别的影响,只是考虑进出站的站点以及时间等常规因素,也没有利用算法从已有特征中进行自动提取新特征,所以整体分类没有达到很好的分类效果。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于机器学习的地铁乘客分类方法,该方法利用机器学习算法对现有特征进行特征的自动提取,进一步发现数据背后的知识,提高分类精度。
本发明的目的通过下述技术方案实现:
一种基于机器学习的地铁乘客分类方法,包括下述步骤:
步骤一,从一卡通公司获取城市全部地铁站的历史刷卡数据;
步骤二,对历史刷卡数据进行预处理,缺失值补0;
步骤三,对部分刷卡数据进行人工标注,得到乘客类别,作为半监督学习中的已知类别的数据集,用于初始训练;
步骤四,按照实际情况,对地铁站进行等级划分;
步骤五,考虑影响地铁乘客类别的影响因素,分析建立模型时所需要的初始特征;
步骤六,训练GBDT算法模型;
(1)GBDT算法模型是以决策树为基模型的;
(2)利用已知类别的那部分数据,进行特征工程,得到满足GBDT算法模型的特征表示,将该特征记为X';
(3)将数据划分为训练集和测试集;
(4)将已知的乘客类别作为目标y,特征作为输入x,传给GBDT算法模型,利用训练集训练GBDT算法模型,利用测试集测试GBDT算法模型的性能以及调整模型参数,得到准确度较高的模型;
步骤七,利用GBDT算法模型构建新特征;
(1)利用GBDT算法模型学习得到的树来对已经标注的数据构造新特征,记为X”;
(2)将该新特征X”加入原有特征X',一起构成了特征集X”';
步骤八,建立softmax算法模型;
(1)softmax算法模型的函数为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910232055.8/2.html,转载请声明来源钻瓜专利网。