[发明专利]一种基于机器学习的地铁乘客分类方法在审
申请号: | 201910232055.8 | 申请日: | 2019-03-26 |
公开(公告)号: | CN109978056A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 张俊秀;谢侃 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/06;G06Q50/26 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杜鹏飞;杨晓松 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于机器学习的地铁乘客分类方法,包括下述步骤:步骤一,从一卡通公司获取城市全部地铁站的历史刷卡数据;步骤二,对历史刷卡数据进行预处理,缺失值补0;步骤三,对部分刷卡数据进行人工标注,得到乘客类别,作为半监督学习中的已知类别的数据集,用于初始训练;步骤四,按照实际情况,对地铁站进行等级划分;步骤五,考虑影响地铁乘客类别的影响因素,分析建立模型时所需要的初始特征;本发明考虑影响乘客类别的因素较为全面,利用GBDT算法模型根据已有特征构建出新特征,实现了特征的自动提取,算法模型简单,能解决现有方法分类效果较差等问题,提高了分类的精度。 | ||
搜索关键词: | 地铁乘客 刷卡数据 基于机器 算法模型 地铁站 分类 预处理 半监督学习 乘客类别 分类效果 建立模型 人工标注 特征构建 影响乘客 影响因素 自动提取 数据集 一卡通 学习 分析 | ||
【主权项】:
1.一种基于机器学习的地铁乘客分类方法,其特征在于,包括下述步骤:步骤一,从一卡通公司获取城市全部地铁站的历史刷卡数据;步骤二,对历史刷卡数据进行预处理,缺失值补0;步骤三,对部分刷卡数据进行人工标注,得到乘客类别,作为半监督学习中的已知类别的数据集,用于初始训练;步骤四,按照实际情况,对地铁站进行等级划分;步骤五,考虑影响地铁乘客类别的影响因素,分析建立模型时所需要的初始特征;步骤六,训练GBDT算法模型;(1)GBDT算法模型是以决策树为基模型的;(2)利用已知类别的那部分数据,进行特征工程,得到满足GBDT算法模型的特征表示,将该特征记为X';(3)将数据划分为训练集和测试集;(4)将已知的乘客类别作为目标y,特征作为输入x,传给GBDT算法模型,利用训练集训练GBDT算法模型,利用测试集测试GBDT算法模型的性能以及调整模型参数,得到准确度较高的模型;步骤七,利用GBDT算法模型构建新特征;(1)利用GBDT算法模型学习得到的树来对已经标注的数据构造新特征,记为X”;(2)将该新特征X”加入原有特征X',一起构成了特征集X”';步骤八,建立softmax算法模型;(1)softmax算法模型的函数为
(2)将经过GBDT算法模型构建的新的特征集X”'划分为训练集和测试集,用softmax算法模型对训练集进行训练,用测试集测试模型自身的性能;(3)得到softmax算法模型的模型参数;步骤九,对其他未进行标注的数据,按照步骤一至步骤八的方法进行处理,得到具有与特征集X”'相同特征数量的特征;步骤十,利用GBDT+softmax算法模型对地铁乘客进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910232055.8/,转载请声明来源钻瓜专利网。