[发明专利]基于城市场景中车联网时空数据的分析处理方法有效
申请号: | 201810746981.2 | 申请日: | 2018-07-09 |
公开(公告)号: | CN109167805B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 程久军;王从军;马骐 | 申请(专利权)人: | 同济大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L12/24;G06F17/16 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 城市 场景 联网 时空 数据 分析 处理 方法 | ||
1.基于城市场景中车联网时空数据的分析处理方法,特征在于,具体方法包括如下步骤:
步骤1.基于噪声去除和数据填充的时空数据处理;
步骤1.1基于语义的噪声点去除;
步骤1.2时间性自相关数据填充;
步骤1.3时空性协同过滤数据填充;
步骤2.基于特征压缩的时空数据降维;
步骤2.1特征无量纲转化;
步骤2.2基于信息增益的特征选取;
步骤2.3基于主成分分析的特征降维;
所述基于噪声去除和数据填充的时空数据处理,包括步骤
(1)基于语义的噪声点去除
设车辆p在t时刻的速度为vt,加速度为at,位置坐标为st(xt,yt),下一个采样点t′的速度为vt′,位置坐标为st′(xt′,yt′),t与t′的时间间隔为Δt,
就角度和距离设置可信阈值θ,l,对应数学表达式(1)和(2):
其中,加速度为at,θ0和l0为常数,此处的引入可信阈值之后变为了一个有边界的扇形区域,中心点的坐标为rcenter=st+vtΔt,根据逆时针向量旋转矩阵得到rleftBottom,rleftTop,相应表达式为(3)和(4),同理根据顺时针矩阵得到rrightBottom,rrightTop,对应表达式(5)和(6),可信阈值的范围也就是由这几个点围成的区域,由此来评估t′时刻的观测值st′;
根据数据点是否落在可信区间判断其是否属于噪声点的决策函数定义为NoiseJudge(x),表达式为(7):
其中,x为观测值st′,NoiseJudge(x)为决策函数,值域为{true,false};
(2)时间性自相关数据填充
根据数据自身前后一段时间内的值情况进行的数据填充定义为时间性自相关数据填充函数SelfFill(t);
其中Xj是观测值,α是介于0到1之间的平滑系数;
Tj为距离目标时间点t相距的时间周期个数,时间周期为T,采样点时间戳为tj,则Tj=(|tj-t|+T)/T;按照公式结合目标时间点t的前后一段时间内采样数据进行计算,从而得到需要的填充值,而且对系数进行了归一化,对前后的时间余量进行控制,避免对时间相距较远的平滑量进行多余的计算;
(3)时空性协同过滤数据填充
如果是大量的数据空白或者车辆本身不支持历史数据的存储,只能显示瞬时参数,
假设需要填充的时间序列为tbegin~tend时刻,在tend时间点上节点vp状态为Cp(tend)={cp1,cp2,...,cpn},其中cpi,i∈[1,n],表示速度、加速度归一化后的不同维度属性,Γ表示临近节点集;
Γ={vq|Distance(vp,vq)≤Range} (10)
其中,Distance(vp,vq)表示节点vp,vq之间的距离,此处以欧式距离计算,Range表示临近节点划分阈值,此处取节点间最小通信距离;那么集合Γ中每个节点的状态为Cqi(tend),i∈[0,|Γ|];
tend时刻两个节点相似度定义为simtEnd(p,q),表达式为(11),展开式为(12):
SxSy表示位置xy的标准差;
simtEnd(vp,vq)的主体为皮尔逊相关系数,用于求解线性相关程度,后边的加1常数项是为了保证整个simtEnd(vp,vq)函数的值位于[0,2]内,为正值且与相关程度呈正相关;有了相似度之后,据此进行数据填充,用相似度作为权值;
根据t时刻节点周围的邻近节点时空数据来进行数据填充的函数定义为时空性协同过滤填充函数CooperateFill(t);
其中,k∈[1,|Γ|]表示t时刻选取|Γ|中simt(vp,vq)最高的个数,不取到上限值|Γ|以节省计算量,待填充数据也由k个邻居点的数据生成;
所述基于特征压缩的时空数据降维,包括步骤
(1)特征无量纲转化
具体方法如下:
1)按照物理意义进行转化
两点经纬度分别为地球半径R=6371km,那么利用Haversine公式得到距离d,这样就将四个特征维度压缩到一维;
其中:λ1和λ2为两个点的经度参数,和为两个点的纬度参数;
2)通过区间缩放对特征进行标准化
借助Max-Min Scaler来进行缩放;xi为一个样本中第i维特征的值,Mini为所有样本中第i维特征的最小值,Maxi是第i维特征的最大值,那么缩放后的x′i∈[0,1]为(16)所示:
3)特征定值化
用二值函数来进行判断,判断条件见(17):
threshold为阈值;
对于车辆的行进方向用North1,South2,West3,East4四个定值来表示,定义辅助方向矢量原始方向矢量为两个方向界定变量转换后的x′就可以表示为公式(18);
(2)基于信息增益的特征选取
根据信息熵H(Y),信息增益IG(Y|X)和相对信息增益RIG(Y|X)的概念,根据公式(19)中RIG的定义,在H(Y)与H(Y|X)相等时相对信息最低为0,从条件熵的定义来看,代表的是在一定条件X下,随机变量Y的不确定度,所以H(Y)=H(Y|X)意味着X的加入没有减少Y的不确定度,当Y为标签,X表示特征时,该特征即为无关特征,可以被筛除掉;
当将该方法用于连通强度的训练模型中时,因为连通强度是具体的数值,属于连续性随机变量,不是离散性的,而H(Y)的计算是针对离散性随机变量而进行的,所以需要进行变量离散化处理,连续变量的离散化通常有以下几种方法,其中:
1)二元转化
该方法是将连续型变量根据指定阈值,转化成二元分类变量,小于阈值的为0,大于则取1;
2)多元转化
当两类不足以表达变量之间的差异时,就扩展为多类,即给定n+1个阈值,最后会将连续性变量转化为n个指定的离散变量值.
3)分位数离散化
分位数离散化根据样本数据中的具体情况来划分为大致相等的部分,其设定范围后每个离散变量值中样本的数目都相近;
(3)基于主成分分析的特征降维
主成分分析是一种在尽可能保持原有信息量情况下有效的线性降维方法,通过寻找某种线性投影,将高维的数据映射到低维的空间中表示,目的在所投影的维度上数据的方差最大,从而使得即使使用较少的数据维度,也可以最大化保留原数据点的特性;
假设输入的数据集为{x(1),x(2),...,x(m)},维度为n,即m表示正整数;首先要计算出协方差矩阵∑:
在计算出协方差矩阵的特征向量,按列排放组成矩阵U:
将x用特征向量为基表示,则表达式变为:
在n维特征向量里舍弃末尾的k个维度,0<k≤n即可达到降维目的;
通过对采集的原始时空数据的噪声去除、数据填充和特征降维处理后,整合成存储在MongoDB里的训练数据集,从而有助于提升车联网网络模型的训练效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810746981.2/1.html,转载请声明来源钻瓜专利网。