[发明专利]一种基于LLE和K均值法挖掘违法事故对应关系的方法有效
申请号: | 201910564249.8 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110263074B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 王晨;宋燕超;寇思元 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F18/23213;G06F18/2135;G06Q50/26 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lle 均值 挖掘 违法 事故 对应 关系 方法 | ||
1.一种基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:该方法包括如下步骤:
S1.收集交通违法与交通事故关联性分析所需数据,包括人事信息,交通违法信息,交通事故信息;
S2.根据步骤S1收集到的交通违法与交通事故关联性分析所需数据,考虑不同的指标对交通事故进行分类,所考虑的指标包括事故严重程度、事故发生形态;
S3.针对不同的交通事故类型分类方式,选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签;
S4.针对不同的交通事故类型分类方式,对违法类型-事故类型进行计数,构建违法类型-事故类型矩阵;
S5.确定三种阈值对交通违法类型进行筛选,三种阈值包括违法类型频率阈值、违法标签频率阈值和离散系数阈值;
S6.选择违法标签中含有筛选违法类型的人员作为行,事故类型和筛选违法类型作为列,构建人员-类型对应矩阵;
S7.根据步骤S6生成的矩阵,将类型看作样本点,人员看作维度,使用零均值标准化方法对数据进行标准化处理;
S8.在不损失重要信息的前提下,使用LLE非线性降维法将数据由高维降至低维;
S9.针对两种不同的事故类型分类方式,分别使用改进的K-均值算法进行聚类分析;
步骤S8中所述的使用LLE非线性降维法将数据由高维降至低维具体包括以下步骤:
S81.采用欧式距离计算每个样本点的近邻数;
S82.通过约束条件最小化价值函数,从而计算能够从最近邻点中最优重构样本点的权重,公式及约束条件如下:
约束条件一:每个样本点只能由其最近邻点重构,且如果不属于最近邻点强制Wij=0;
约束条件二:权重矩阵中每一行和为1,即∑jWij=1,
其中,ε(W)为价值函数公式,为样本点,Wij为第j个数据点在样本点i的重建中所占权重;
S83.根据权重计算出能够最优重构高维样本点的低维向量,从而能够底部非零特征向量最小化嵌入价值函数,公式如下:
其中,φ(Y)为嵌入价值函数,为映射后的低维向量;
步骤S9中所述的使用改进的K-均值算法进行聚类分析具体包括以下步骤:
S91.确定最佳聚类数目;
S92.确定初始聚类中心;
S93.采用欧式距离作为变量之间的聚类函数对交通违法类型和交通事故类型进行聚类;
步骤S91所述确定最佳聚类数目应满足以下要求:
1)要求选择具有较大平均轮廓宽度的聚类结果对应的聚类数目;
2)要求每一个交通事故类型都应包含在聚类结果中,且不同的交通事故类型应该聚类到不同的类之中;
3)要求每一个类中交通违法类型的数目尽可能小于10,使违法事故类型的对应关系更加清晰;
步骤S92所述确定初始聚类中心具体包括以下步骤:
1)从样本中随机抽取一个点作为初始聚类中心;
2)根据概率从样本中选取下一个聚类中心,概率公式如下:
D(x)2/∑x∈XD(x)2(3)
3)重复步骤2)直到确定了全部的聚类中心;
在所述步骤S93中得到的聚类结果中,应保留交通违法类型和交通事故类型的对应关系,这种对应关系将根据如下关系式体现:
p(vmcn)p(vm)×p(cn) (4)
其中,p(vmcn)为违法-事故类型发生概率,p(vm)为交通违法类型发生概率,p(cn)为交通事故类型发生概率。
2.根据权利要求1所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:步骤S2中所述的事故发生形态包括:同向刮擦、对向刮擦、正面碰撞、追尾碰撞、同向侧面碰撞、对向侧面碰撞、直角侧面碰撞、角度不确定的侧面碰撞;所述事故严重程度分为:简易事故、财产损失事故、轻微伤人事故、严重伤人及死亡事故。
3.根据权利要求1所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:步骤S5中所述的确定三种阈值对交通违法类型进行筛选的具体方法包括以下步骤:
S51.将交通违法类型发生频率的25%分位数作为阈值,对交通违法类型进行第一次筛选;
S52.将交通违法标签发生频率的25%分位数作为阈值,对交通违法类型进行第二次筛选;
S53.将离散系数的25%分位数作为阈值,对交通违法类型进行第三次筛选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910564249.8/1.html,转载请声明来源钻瓜专利网。