[发明专利]一种针对行人行为模式的分布集中式交通大数据聚类方法在审
| 申请号: | 201310468804.X | 申请日: | 2013-10-10 |
| 公开(公告)号: | CN104572639A | 公开(公告)日: | 2015-04-29 |
| 发明(设计)人: | 马超;梁循;马跃峰;李晓菲;王媛媛 | 申请(专利权)人: | 中国人民大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
| 代理公司: | 无 | 代理人: | 无 |
| 地址: | 100872 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 行人 行为 模式 分布 集中 交通 数据 方法 | ||
技术领域
本发明属于大数据挖掘方法领域,具体涉及一种分布集中式大数据模式发现方法
背景技术
随着大数据时代的来临,越来越多的应用情景下,人们需要处理的数据规模扩展到TB甚至PB级别,并且希望从中快速有效地挖掘出可靠、有用的隐藏信息。因此,如何快速准确地从大数据中挖掘价值信息在当前具有重要意义。聚类分析作为一种数据挖掘领域的核心技术之一,常常可以作为其他数据挖掘算法的前期处理。然而面对如此庞大的数据规模,传统的聚类方法在数据存储、计算复杂性等方面不能满足现实需要。
例如我们要对北京、上海、广州的数据进行挖掘,直观的想法是把数据集中起来再进行处理,比如说可以将上海和广州的数据直接拷贝到北京来。但是当数据量达到一定的规模之后这种拷贝就显得不是那么现实,也就是在我们所说的大数据背景下,拷贝或者集中的成本可能是无法接受的,如时间、设备、金钱等。这样就要求我们必须对传统本地式的数据挖掘方法进行改进甚至是颠覆式地改变。
本发明提出一种针对分布式大数据的模式发现方法,首先对不同地点的数据分别进行特征点提取,数据规模大幅度下降到可以传输的量级,然后将不同地区的数据特征点进行集中处理,挖掘出全体数据的模式。例如对于北京、上海、广州三个地区的某行业的数据,我们先对单个地区的数据提取一些有代表性的特征点,然后将三个地区的数据特征点汇总到北京,在北京的机器上进行全体数据的挖掘,最终挖掘出该行业数据的整体模式。
在具体的应用方面,本发明主要针对的是行人行为模式的分布集中式交通大数据的聚类问题。更进一步地,当下交通事故频发,占相当比例是由于行人闯红灯引起的,如果能对路面行人尤其是过马路的行人的行为模式进行发现并相应地制定应对方案,就可以有效地控制行人闯红灯事件的发生从而相应减少交通事故的出现。
闯红灯的行人数据可以通过监控录像发现,同时通过图像处理技术还可以获得当时路面同时等待过马路的行人数量等信息,而实时的路段平均车速数据以及路面宽度和红灯时长等信息也为已知。每一个闯红灯的行人都对应着这些维度的信息,每一个地区都存在着大量的闯红灯的行人的数据,然而从全国的角度出发,想要挖掘全国闯红灯行人的行为模式却需要面对大数据迁移集中的问题,一个行之有效的分布集中式交通大数据聚类方法的发明显得十分有必要。
发明内容
本发明的对象是分布式大数据,首先提出一种对于单个地点的数据特征点提取方法,然后将不同地点的特征点信息汇总到一处,再进行整体数据的挖掘,利用基于密度的算法进行聚类。
1.单个地点数据特征点信息提取
对于单个地点的数据,我们用若干个特征点及每个特征点对应的权重代表。
1.1确定每个地点的数据平均密度
根据数据的范围,将数据规范到一个区域中,如二维的数据是一个能覆盖所有数据点的最小矩形,三维数据是一个能覆盖所有数据点的最小立方体,以此类推。
数据的平均密度D定义为数据点的个数N与规范化区域测度S的比值,即
1.2确定特征点覆盖区域的半径
首先,我们定义单个地点所能承受的传输数据点的个数为M,所以最后该地点向数据处理中心传输的特征点的个数同样也是M个,这里传输的内容同时包括特征点的坐标以及权重,且权重之和为该地区的数据点总和。
在最理想的情况下,每个特征点所表示的区域应该是没有交集的,所以我们定义平均每个特征点所代表的测度
为了方便特征点的寻找,我们将特征点表示的区域当数据为二维时定义为圆,三维时定义为球体,以此类推,设数据的维数为n,特征点所表示区域的半径为R,那么根据多维球体体积公式有
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学;,未经中国人民大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310468804.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:舆情数据存储方法和装置
- 下一篇:智能机器人交互系统在投融资领域的应用





