[发明专利]基于用户画像与聚类算法的相似用户分析方法及系统在审
| 申请号: | 202210635111.4 | 申请日: | 2022-06-07 |
| 公开(公告)号: | CN115018545A | 公开(公告)日: | 2022-09-06 |
| 发明(设计)人: | 管洪清;徐亮;王伟;张元杰;张大千;尹广楹;孙浩云 | 申请(专利权)人: | 青岛文达通科技股份有限公司 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 于凤洋 |
| 地址: | 266500 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 用户 画像 算法 相似 分析 方法 系统 | ||
1.一种基于用户画像与聚类算法的相似用户分析方法,其特征在于,包括如下步骤:
1)采集用户对于商品的历史行为信息数据;所述历史行为信息数据包括用户-商品评分矩阵、商品信息、用户浏览商品记录以及商品的访问频率;
2)基于用户历史行为信息数据对用户画像相似度的度量函数进行构建;
3)基于用户画像相似度的度量函数对用户画像进行聚类操作,将用户的历史行为信息数据划分为多个聚类簇,将每个簇内具备所有用户画像特征的虚拟用户作为每个聚类簇的中心点;
4)保存生成的聚类簇以及聚类中心点,当目标用户进行相似用户的检索时,先进行用户画像相似度的比对,再找出最为相似的虚拟用户以及对应的簇;
5)寻找与虚拟用户最为相似的前n个用户,作为目标用户的候选近邻用户。
2.如权利要求1所述的基于用户画像与聚类算法的相似用户分析方法,其特征在于,在步骤1)中,所述的商品信息包含商品本身的基本信息,即名称、性质以及商品所属的喜好标签信息,所述商品所属的喜好标签信息为商品所属类型以及是否优惠。
3.如权利要求1所述的基于用户画像与聚类算法的相似用户分析方法,其特征在于,根据所述用户浏览商品记录统计用户的喜好标签特征,所述喜好标签特征以多维向量的形式进行表示,每一维的值代表当前维度所对应的喜好标签的访问频率次数;
或
根据所述用户-商品评分矩阵获取用户对当前维度所对应商品的评分。
4.如权利要求3所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,获取用户当前维度对应商品的评分的方式为:
利用用户-商品评分矩阵,将用户对应的行数据进行提取,则获得当前用户对所有商品的评分信息,并以向量的形式进行表示,所述向量为评分向量,且每一维的值代表用户对当前维度所对应商品的评分。
5.如权利要求1所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述用户画像相似度的度量函数由协同相似度、轨迹相似度以及喜好标签特征相似度三部分组成,所述协同相似度以Pearson相关系数进行计算,所述轨迹相似度以Jaccard相似度公式进行计算,所述轨迹相似度将作为置信因子对协同相似度加以修正。
6.如权利要求5所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述喜好标签特征相似度所衡量的是两个特征向量之间的相似度,采用余弦相似度函数进行计算,并构建用户画像相似度的度量函数为:
其中ui表示第i个用户,si表示用户i的评分向量,h表示用户i的历史轨迹,而vi表示用户i的喜好特征向量。
7.如权利要求1所述基于用户画像与聚类算法的相似用户分析方法,其特征在于,所述基于用户画像相似度的度量函数对用户画像进行聚类的方式为:以用户画像度量函数为基准,利用基于半径变化与用户画像的均值偏移聚类方法对用户画像进行准确聚类,聚类过程如下:
步骤1:在未被分类的用户数据点中随机选择一个点作为聚类中心点;
步骤2:找出距离聚类中心点小于R的所有用户数据点,这些数据点组成集合G(u),并将这些点加入聚类中心点所代表的簇,其中数据点之间的距离取两点之间用户画像相似度的倒数;
步骤3:计算集合G(u)中每个用户的均值,将聚类中心点偏移至所得均值的位置;
步骤4:重复步骤2、3,直到没有新的数据点加入至簇中,并将此时的聚类中心点与最终所形成的簇记录下来;
步骤5:重复步骤1、2、3、4直到所有的点都被归类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛文达通科技股份有限公司,未经青岛文达通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210635111.4/1.html,转载请声明来源钻瓜专利网。





