[发明专利]一种移动互联网用户访问模式表征和聚类方法在审
申请号: | 201710910100.1 | 申请日: | 2017-09-29 |
公开(公告)号: | CN107818334A | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 吴晓非;禹可;李苒;江万 | 申请(专利权)人: | 北京邮电大学;苏州大数聚信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 移动 互联网 用户 访问 模式 表征 方法 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及到一种移动互联网用户访问模式表征和聚类方法。
背景技术
基于doc2vec算法,将其应用于移动互联网用户聚类。doc2vec算法被提出用于自然语言处理领域。是基于word2vec算法的一种改进。随着自然语言处理技术的广泛应用,doc2vec算法的应用场景也不断被扩展。针对移动互联网用户的访问记录,一个用户标识可以被看作是类似于一个段落的标识,而具体的域名访问序列则可以被看做是一个个按照顺序排列的单词序列,这样一来就可以将doc2vec算法应用于移动互联网用户的向量表征,进一步地可以根据用户向量进行用户聚类和特征提取。
随着互联网用户量的增长,各个互联网商业领域都需要对互联网用户的行为习惯进行分析和聚类,以便在实际业务中采取更有针对性的策略,提高效率,降低运营成本。因此互联网用户聚类就成为了一个重要且迫切的现实需求。由于用户量数以亿计,使用人工方式进行聚类是不现实的。使用人工制定的简单规则分类又难以面面俱到,误差较大。基于用户访问序列的doc2vec算法是一种无监督的,高效的聚类方法。具有快速,高效的优点。
以K-means为代表的聚类算法已经相对成熟,doc2vec算法将用户访问行为转换成适用于各种聚类算法的用户向量,以便用于聚类,再根据事先定义的域名规则,可以较好的反映出聚类结果中每类人群中的兴趣特点和行为习惯,为各个互联网商业行为提供参考。
发明内容
本发明的目的在于提供一种移动互联网用户的聚类方法和装置,以期望能为互联网商业领域提供参考。
本发明的主要模块区分如下:
步骤101,用户访问序列获取模块,用于获取用户访问的APP序列,数据来源是网络运营商;
步骤102,用户访问序列预处理模块,用于对APP访问序列预处理并产生预设的可用于训练的数据类型,对访问数据进行清洗去重,保证训练数据的可用性和有效性;,
步骤103,向量表征训练模块,用于对用户访问的域名序列进行基于特定算法的训练,产生域名对应的域名向量和用户对应的用户向量,得到训练模型;
步骤104,用户向量生成模块,用于根据新的用户访问序列数据产生新的用户向量,该向量是基于训练模型计算得到;
步骤105,APP域名分类规则模块,用于根据域名的实际功能,为其产生相应的人工标签,标签代表了该域名的分类和所属领域;
步骤106,用户向量聚类模块,用于根据用户向量对用户进行聚类,并根据聚类结果结合域名分类规则,确定每一类用户的兴趣点和用户属性。
进一步的,步骤102包括以下步骤:
步骤201,去除无关字段,抽取关键信息,采用分布式文件系统存储海量数据,针对目标日期和目标时间段,利用分布式计算平台,进行粗粒度的,大规模的快速处理。
步骤202,数据融合,将每一条用户对某一域名的访问记录,根据相同的用户标识进行融合,获得某一用户在特定时间段内的访问序列,即将用户与其访问域名的一对一记录融合为一对多记录。
步骤203,根据访问序列的时间后顺序进行排序,根据预设的时间间隔,去除重复冗余数据,即在预设时间段内重复出现的域名访问序列视为重复冗余记录,予以删除。
步骤204,从前面步骤中得到的数据中区分训练数据集和测试数据集,其中训练数据集和测试数据集所占比例是由经验所得的预设比例,该比例应考虑到训练效果和训练复杂度两方面,达到两者的平衡。
可选的,步骤103中所述的特定训练算法为doc2vec算法,经过预处理的用户访问序列充当训练数据,一条数据记录视为一个段落,其中用户标识充当段落向量,而域名访问记录中的每一个域名就充当段落文本的一个词。多个访问序列根据先后顺序排列形成了段落文本。
步骤103的训练所得包括域名向量,用户向量以及训练参数模型,其中域名向量是对域名的向量表示,用户向量是用户的向量表示,用户向量的空间距离关系反映了用户和用户间的关系;训练参数模型可用于对新数据的计算,这里的新数据是指在训练数据中不存在的用户访问序列,通过计算可以对新的用户数据生成新的用户向量。
可选的,步骤105包括了一种人工的域名分类,根据用户的日常使用习惯,常见的域名被分为一定数量的种类,分类以最能区分用户特性的标准进行,每个类别代表了一种服务领域,例如社交通信服务,语音视频服务,汽车咨询服务等。最后将域名分类规则以及用户向量的聚类规则结合起来对用户的行为特征进行分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;苏州大数聚信息技术有限公司,未经北京邮电大学;苏州大数聚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710910100.1/2.html,转载请声明来源钻瓜专利网。