[发明专利]一种基于机器学习的地铁乘客分类方法在审

专利信息
申请号: 201910232055.8 申请日: 2019-03-26
公开(公告)号: CN109978056A 公开(公告)日: 2019-07-05
发明(设计)人: 张俊秀;谢侃 申请(专利权)人: 广东工业大学
主分类号: G06K9/62 分类号: G06K9/62;G06Q10/06;G06Q50/26
代理公司: 广东广信君达律师事务所 44329 代理人: 杜鹏飞;杨晓松
地址: 510062 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于机器学习的地铁乘客分类方法,包括下述步骤:步骤一,从一卡通公司获取城市全部地铁站的历史刷卡数据;步骤二,对历史刷卡数据进行预处理,缺失值补0;步骤三,对部分刷卡数据进行人工标注,得到乘客类别,作为半监督学习中的已知类别的数据集,用于初始训练;步骤四,按照实际情况,对地铁站进行等级划分;步骤五,考虑影响地铁乘客类别的影响因素,分析建立模型时所需要的初始特征;本发明考虑影响乘客类别的因素较为全面,利用GBDT算法模型根据已有特征构建出新特征,实现了特征的自动提取,算法模型简单,能解决现有方法分类效果较差等问题,提高了分类的精度。
搜索关键词: 地铁乘客 刷卡数据 基于机器 算法模型 地铁站 分类 预处理 半监督学习 乘客类别 分类效果 建立模型 人工标注 特征构建 影响乘客 影响因素 自动提取 数据集 一卡通 学习 分析
【主权项】:
1.一种基于机器学习的地铁乘客分类方法,其特征在于,包括下述步骤:步骤一,从一卡通公司获取城市全部地铁站的历史刷卡数据;步骤二,对历史刷卡数据进行预处理,缺失值补0;步骤三,对部分刷卡数据进行人工标注,得到乘客类别,作为半监督学习中的已知类别的数据集,用于初始训练;步骤四,按照实际情况,对地铁站进行等级划分;步骤五,考虑影响地铁乘客类别的影响因素,分析建立模型时所需要的初始特征;步骤六,训练GBDT算法模型;(1)GBDT算法模型是以决策树为基模型的;(2)利用已知类别的那部分数据,进行特征工程,得到满足GBDT算法模型的特征表示,将该特征记为X';(3)将数据划分为训练集和测试集;(4)将已知的乘客类别作为目标y,特征作为输入x,传给GBDT算法模型,利用训练集训练GBDT算法模型,利用测试集测试GBDT算法模型的性能以及调整模型参数,得到准确度较高的模型;步骤七,利用GBDT算法模型构建新特征;(1)利用GBDT算法模型学习得到的树来对已经标注的数据构造新特征,记为X”;(2)将该新特征X”加入原有特征X',一起构成了特征集X”';步骤八,建立softmax算法模型;(1)softmax算法模型的函数为(2)将经过GBDT算法模型构建的新的特征集X”'划分为训练集和测试集,用softmax算法模型对训练集进行训练,用测试集测试模型自身的性能;(3)得到softmax算法模型的模型参数;步骤九,对其他未进行标注的数据,按照步骤一至步骤八的方法进行处理,得到具有与特征集X”'相同特征数量的特征;步骤十,利用GBDT+softmax算法模型对地铁乘客进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910232055.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top