[发明专利]一种基于改进K近邻的网站用户分类方法有效

申请号：	202110082407.3	申请日：	2021-01-21
公开（公告）号：	CN112765521B	公开（公告）日：	2023-06-23
发明（设计）人：	朱节中;张果荣;杨再强;柯福阳;陈道勇;马玉翡	申请（专利权）人：	南京信息工程大学
主分类号：	G06F18/2413	分类号：	G06F18/2413;G06F16/958
代理公司：	南京汇盛专利商标事务所(普通合伙) 32238	代理人：	张立荣
地址：	210044 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进近邻网站用户分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于改进K近邻的网站用户分类方法，该方法以网站数据库原始数据为依托，在利用K近邻算法进行用户分类时，不是采用原有的均等权重的方法进行计算，而利用不同的数据类型权重代入到K近邻进行计算，使得分类结果更加贴近实际。本发明将不均等的权重代入K近邻算法进行聚类计算，不采用均等权重的K近邻方法，更有益于分类，更具可移植性。本发明的分类方法可以得到更精确高效的分类结果，该分类结果给网站提供更精准的用户评估数据。

技术领域：

本发明属于数据处理领域，具体涉及一种基于改进K近邻的网站用户分类方法。

背景技术：

目前对于网站用户的分类是依据不同用户的浏览习惯得出不同用户对网站的感兴趣程度进行分类，这涉及到相关数据的分类问题。K近邻的方法可以解决从数据挖掘到数据分类的全部任务，但K近邻在面对不同类型的数据时，采取的是初始权重相同的方法处理的，这在实际的数据处理中往往存在问题，不同类型的数据对最后的分类结果影响程度是不同的，这极大的背离了精准高效分类数据的原则。

发明内容：

针对现有技术中存在的问题，本发明提出一种基于改进K近邻的网站用户分类方法，以网站数据库原始数据为依托，在利用K近邻算法进行用户分类时，不是采用原有的均等权重的方法进行计算，而利用不同的数据类型权重代入到K近邻进行计算，使得分类结果更加贴近实际。

本发明所采用的技术方案是一种基于改进K近邻的网站用户分类方法，包括：

1)获取网站用户的原始数据，所述原始数据为各网站用户对应的多种数据类型的数据，并将其转换为m×n的二维矩阵X，X＝(x_ij)_m×n；

其中，x_ij为第i个用户第j种数据类型的元素值；i∈[1，m]，i为用户序号，记为类数，m为用户总数；j∈[1，n]，j为数据类型序号，记为类别数，n为数据类型总数；

2)对所述二维矩阵X按数据类型进行类归一化处理，得到m×n的二维矩阵R，R＝(r_ij)_m×n，r_ij为第j个类别数下第i个类的元素值；

3)确定所述二维矩阵R中各数据类型的熵权重；

4)基于所述各数据类型的熵权重，采用K近邻算法对二维矩阵R进行聚类，得到网站用户分类结果。

优选地，步骤1)中，所述二维矩阵X的具体形式如下：

其中，x_ij为第j个类别下第i个类的元素值。

优选地，步骤2)中，所述类归一化处理的计算公式如下：

r_ij＝(y_max-y_min)*(x_ij-x_min)/(x_max-x_min)+y_min