[发明专利]电视用户行为数据的聚类方法、装置及Spark大数据平台在审
申请号: | 201510355359.5 | 申请日: | 2015-06-24 |
公开(公告)号: | CN104899331A | 公开(公告)日: | 2015-09-09 |
发明(设计)人: | 冯研 | 申请(专利权)人: | TCL集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 516006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电视 用户 行为 数据 方法 装置 spark 平台 | ||
1.一种电视用户行为数据的聚类方法,其特征在于,所述方法包括:
获取电视用户行为数据并存储所述电视用户行为数据至第一矩阵A1中,所述第一矩阵A1是一个n行*m列的矩阵,n代表用户数量,m代表用户观看的视频属性的数量;
使用主成分分析的方法对所述第一矩阵A1进行属性约简处理,得到第二矩阵A2,所述第二矩阵A2是一个n行*15列的矩阵;
使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得到第三矩阵A3,所述第三矩阵A3是一个n行*4列的矩阵;
采用K-均值聚类算法对所述第三矩阵A3进行聚类处理,得到聚类结果。
2.如权利要求1所述的方法,其特征在于,所述使用主成分分析的方法对所述第一矩阵A1进行属性约简处理,得到第二矩阵A2,包括:
调用主成分分析代码,对所述第一矩阵A1进行处理,得到各主成分的特征根λ1、各主成分的因子系数载荷矩阵C;
基于各主成分的特征根λ1的值,挑选出λ1值大于等于预设第一阈值的前M个主成分,并计算出前M个主成分的累计方差贡献度D2;
基于前M个主成分的因子系数载荷矩阵C,挑选出在每个主成分上系数大于预设第二阈值的属性,将每个主成分上系数大于预设第二阈值的属性进行合并约简,得到属性约简规则表;
根据所述属性约简规则表对所述第一矩阵A1中的视频属性进行合并,得到第二矩阵A2。
3.如权利要求1或2所述的方法,其特征在于,所述使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得到第三矩阵A3,包括:
调用因子分析的代码,使用因子分析的方法对所述第二矩阵A2进行处理,得到各因子的特征根λ2、因子碎石图、因子系数载荷矩阵E;
基于各因子的特征值根λ2,并结合所述因子碎石图,得出特征值大于预设第三阈值的前N个因子以及所述前N个因子对应的因子系数载荷矩阵E;
根据所述第二矩阵A2以及所述前N个因子对应的因子系数载荷矩阵E得到第三矩阵A3。
4.如权利要求1所述的方法,其特征在于,在所述使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得到第三矩阵A3之后,还包括:
基于K-均值算法的并行运算对所述第三矩阵A3进行聚类处理,得到聚类结果。
5.一种电视用户行为数据的聚类装置,其特征在于,所述装置包括:
数据获取单元,用于获取电视用户行为数据并存储所述电视用户行为数据至第一矩阵A1中,所述第一矩阵A1是一个n行*m列的矩阵,n代表用户数量,m代表用户观看的视频属性的数量;
第一降维单元,用于使用主成分分析的方法对所述第一矩阵A1进行属性约简处理,得到第二矩阵A2,所述第二矩阵A2是一个n行*15列的矩阵;
第二降维单元,用于使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得到第三矩阵A3,所述第三矩阵A3是一个n行*4列的矩阵;
第一聚类单元,用于采用K-均值聚类算法对所述第三矩阵A3进行聚类处理,得到聚类结果。
6.如权利要求5所述的装置,其特征在于,所述第一降维单元,包括:
第一处理模块,用于调用主成分分析代码,对所述第一矩阵A1进行处理,得到各主成分的特征根λ1、各主成分的因子系数载荷矩阵C;
第二处理模块,用于基于各主成分的特征根λ1的值,挑选出λ1值大于等于预设第一阈值的前M个主成分,并计算出前M个主成分的累计方差贡献度D2;
第三处理模块,用于基于前M个主成分的因子系数载荷矩阵C,挑选出在每个主成分上系数大于预设第二阈值的属性,将每个主成分上系数大于预设第二阈值的属性进行合并约简,得到属性约简规则表;
合并模块,用于根据所述属性约简规则表对所述第一矩阵A1中的视频属性进行合并,得到第二矩阵A2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL集团股份有限公司,未经TCL集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510355359.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置