[发明专利]无参数的k均值聚类方法在审

申请号：	201810553412.6	申请日：	2018-06-01
公开（公告）号：	CN108764359A	公开（公告）日：	2018-11-06
发明（设计）人：	侯涛;刘富;康冰;刘云;李丁园;姜守坤;王柯;苗岩;梁艺馨	申请（专利权）人：	吉林大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	吉林长春新纪元专利代理有限责任公司 22100	代理人：	白冬冬
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	驾驶人体生物特征数据处理技术待分类数据分类数据集安全行驶保障车辆分类识别分类数据驾驶行为聚类分析疲劳驾驶汽车驾驶输出结果大数据离散度聚类偏好预警采集筛选图像分类汽车决策分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种无参数的k均值聚类方法，属于数据处理技术领域。本发明的目的是为图像、人体生物特征、汽车驾驶员等对象采集到的多分类数据集，提供一种无参数的k均值聚类方法，其适用于对各种多分类大数据集进行分析。本发明的步骤是：计算待分类数据集中各个数据点的密度；计算分类数据集中各个数据点的离散度；筛选初始类中心和聚类数；用传统k‑mean进行聚类分析并输出结果。本发明适用于对汽车驾驶姿态、驾驶行为、驾驶偏好等信息进行分类识别，便于提前预警疲劳驾驶、异常驾驶，做出相应的驾驶决策、保障车辆安全行驶。

技术领域

本发明属于数据处理技术领域。

背景技术

K均值算法(k-means clustering method，CM)是一种常用的无监督聚类算法，目前已被广泛应用于图像处理领域进行图像分割；用于生物特征识别领域进行人体的身份验证；用于汽车驾驶姿态、行为的分类识别，便于提前预警疲劳驾驶，保障车辆行驶安全。然而该算法在对各个领域采集到的数据集进行聚类分析时，需要人为预先设定两个参数，一个是代表聚类个数的k参数，另一个是初始聚类中心点。这两个参数的选取，直接影响着聚类结果，使聚类陷入局部最优，导致不准确。目前，改进的一些k-mean算法通常通过拉网式训练来选择最优的参数，这并不高效。为了解决这些问题，本发明提出一种无参数的智能k均值聚类算法(paremeter-free Intelligent k-Mean，IKM)。本发明能对从图像、人体生物特征、汽车驾驶员等对象采集到的多类大数据集进行聚类实验，准确评估出聚类数和聚类初值，从而进行优化聚类。

发明内容

本发明的目的是为图像、人体生物特征、汽车驾驶员等对象采集到的多分类数据集，提供一种无参数的k均值聚类方法，其适用于对各种多分类大数据集进行分析。

本发明的步骤是：

第一步计算待分类数据集中各个数据点的密度；

第二步计算分类数据集中各个数据点的离散度；

第三步筛选初始类中心和聚类数；

第四步是用传统k-mean进行聚类分析并输出结果。

本发明所述的计算待分类数据集中各个数据点的密度：

(1)先计算数据集中每个数据点x_i的邻域密度，具体计算方法如下：

对计算数据点x_i的邻域U(x_i)＝{x_j|x_j∈Xandd_ij≤d_l}(i≠j)，其中d_ij＝d(x_i,x_j)，表示两个数据点i和j之间的欧式距离；距离阈值d_l定义为数据集X中样本之间所有距离的平均值的1/10，可表示为：

(2)数据集X中的任意样本点x_i的密度定义为点x_i的邻域U(x_i)内所包含样本点的欧式距离之和，可表达为：计算每个数据点x_i的密度den_i之后，用以下公式对其进行归一化处理：d1_i＝den_i/max(den_i)。

本发明所述的计算分类数据集中各个数据点的离散度：即数据集X中各个数据点x_i的离散度ρ_i，