[发明专利]一种轨道交通流数据处理方法在审
申请号: | 201911201991.9 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110971687A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 黄滔;王大海;杨逸飞;徐晖;王刚;林宇静;高杨;刘国庆 | 申请(专利权)人: | 浙江邦盛科技有限公司;中车唐山机车车辆有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06K9/62;G06Q50/26 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310012 浙江省杭州市西湖*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 轨道 通流 数据处理 方法 | ||
1.一种轨道交通流数据处理方法,其特征在于,该方法包括以下步骤:
(1)基于Kafka的消息分发,Kafka用于发布与订阅消息,包括控制节点和工作节点,即控制节点运行Nimbus,负责发布拓扑结构和任务,工作节点运行Supervisor,负责接收任务并执行;通过Kafka汇总轨道交通客流及设备等监测数据形成数据源,并将数据源发送给Storm进行实时处理;
(2)Storm拓扑结构的设计,所述Storm拓扑结构由数据源组件KafkaSpout和三个逻辑处理单元PreBolt、RunBolt以及PostBolt组成;
Storm通过ZooKeeper来控制Kafka集群,控制节点运行的Nimbus进程向ZooKeeper发送轨道交通中所有的状态信息,进而发布Storm拓扑结构中所有逻辑处理单元节点个数和任务,所述轨道交通中所有的状态信息包括保存在Kafka集群上的实时客流量、运载量和运输速率等;ZooKeeper提供的Watcher接口则用于对Storm进行监听,通过监听来了解轨道交通信息等变化,然后控制Kafka集群做出相应的指令处理;
(3)KafkaSpout从Kafka集群中拉取数据,并将其处理成元组,传递到后续的逻辑处理单元PreBlot中;传递的方式采用随机分组的方式,使得元组均匀的分布到PreBolt的数据处理程序中,在PreBolt中对元组进行预处理,即根据需求剔除无关的数据,所述无关的数据为除实时客流量、运载量、运输速率之外的数据,然后将剔除后的数据标记数据的来源并处理成特征向量的形式;
(4)PreBolt逻辑单元将预处理后的数据传递到RunBolt逻辑单元中,在RunBolt逻辑单元中将特征向量作为VPMCD模型的训练样本,完成VPMCD模型初始化与VPMCD模型的在线增量学习;
所述VPMCD模型初始化具体为:首先采用历史数据对模型进行首次训练,将训练好后的模型参数储存到关系型数据库中,然后通过RunBolt读取首次训练后的模型;
所述模型的在线增量学习,通过Zookeeper对RunBolt的监听,可以实现模型的增量学习,具体为:随着轨道交通中的客流数据信息变化,当积累了新的训练样本时,ZooKeeper会将把新的训练样本序列化后发送给RunBolt逻辑单元,RunBolt逻辑单元将序列化的训练样本通过getData方法进行反序列操作,获得实际新的训练样本,然后对RunBolt逻辑单元读取的VPMCD模型进行重新训练。
(5)RunBolt将标记来源的数据和在线增量学习后的VPMCD模型采用随机分组的方式发送到PostBolt逻辑处理单元中,通过PostBolt逻辑处理单元将标记来源的数据和在线增量学习后的VPMCD模型参数保存于关系型数据库中;所述在线增量学习后的VPMCD模型可用于对轨道交通情况进行预测。
2.根据权利要求1所述的一种基于云计算的轨道交通流数据处理方法,其特征在于,ZooKeeper对Storm进行监听,具体为:
(1)在Storm拓扑结构中设计一个Connection类实现Watcher接口,ZooKeeper通过Watcher接口监听到Kafka、PreBolt、RunBolt、PostBolt等节点状态信息的变化。
(2)在KafkaSpout中设计一个DataListener接口,其getDataInfo方法负责将数据从ZooKeeper中获取到拓扑结构中。
(3)设计一个能够向拓扑结构传递消息的ZooKeeper客户端,通过此客户端,ZooKeeper能够向拓扑程序发送指令和数据,并能将序列化后的指令或数据发送到节点路径上。
3.根据权利要求1所述的一种基于云计算的轨道交通流数据处理方法,其特征在于,步骤(4)的模型的在线增量学习中,根据样本的时效性,确定积累的新的训练样本的时间间隔。
4.根据权利要求1所述的一种基于云计算的轨道交通流数据处理方法,其特征在于,多个PostBolt逻辑处理单元同时运行,而且因为每个数据流均被标记了来源,所以不同数据流的数据可以储存在同一个物理分区中,节省了计算资源,降低延时。
5.根据权利要求1所述的一种基于云计算的轨道交通流数据处理方法,其特征在于,同时运行的RunBolt逻辑处理单元有多个,而其个数在控制节点发布Storm拓扑结构时已经确定,将个数作为参数传递给PostBolt,并且PostBolt统计收到的VPMCD模型个数,当RunBolt逻辑处理单元个数与统计的VPMCD模型个数相等时执行一次存储操作,避免了重复存储,而在之后的运行过程中导致出错。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江邦盛科技有限公司;中车唐山机车车辆有限公司,未经浙江邦盛科技有限公司;中车唐山机车车辆有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911201991.9/1.html,转载请声明来源钻瓜专利网。