[发明专利]一种用户画像方法及装置在审
申请号: | 201710675017.0 | 申请日: | 2017-08-09 |
公开(公告)号: | CN109389138A | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 张路;罗成;潘宣辰 | 申请(专利权)人: | 武汉安天信息技术有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市东湖新技术开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 画像 训练数据集 标签 特征选择算法 原始训练数据 标签信息 反复迭代 分类结果 应用程序 启发式 分类 | ||
1.一种用户画像方法,其特征在于,所述方法包括以下步骤:
S01,预定义表征用户特性的程序名关键词;
S02,从无用户标签的用户中随机抽取若干组成第一训练子集,根据程序名关键词匹配第一训练子集中用户设备上的应用程序名列表,对用户进行初步分类;
S03,利用特征选择算法,计算预定义程序名与已初步分类用户类别的相关性,并在各类别中选出预设数目的相关度最高的程序名;
S04,根据各类别预设数目的相关度最高的程序名匹配第一训练子集中的用户设备上的应用程序名列表,对用户分类;
S05,迭代计算并判断当前迭代是否收敛;
S06,利用生成的带标签的第一训练子集进行模型训练,对用户进行画像。
2.如权利要求1所述的方法,其特征在于,所述特征选择算法包括利用χ2统计量、信息增益、信息增益率、基尼指数进行特征选择。
3.如权利要求1所述的方法,其特征在于,所述迭代计算的过程为:将S04的分类结果输入到S03,重新按照特征选择算法,计算预定义程序名与已分类用户类别的相关性,并在各类别中选出预设数目的相关度最高的程序名。
4.如权利要求1所述的方法,其特征在于,所述判断当前迭代收敛的条件为:
其中,N为总用户数量,k为迭代次数,∑C1,k、∑C2,k分别代表各类别的用户数量,∑C1,k+∑C2,k+……=N,C1,k-1、∑C2,k-1代表上一次分类结果的用户数量,δ为一预设阈值。
5.一种用户画像装置,其特征在于,所述装置包括预定义模块、第一分类模块、特征选择模块、第二分类模块、迭代计算模块、画像模块,其中:
预定义模块,用于预定义表征用户特性的程序名关键词;
第一分类模块,用于从无用户标签的用户中随机抽取若干组成第一训练子集,根据程序名关键词匹配第一训练子集中用户设备上的应用程序名列表,对用户进行初步分类;
特征选择模块,用于利用特征选择算法,计算预定义程序名与已初步分类用户类别的相关性,并在各类别中选出预设数目的相关度最高的程序名;
第二分类模块,用于根据各类别预设数目的相关度最高的程序名匹配第一训练子集中的用户设备上的应用程序名列表,对用户分类;
迭代计算模块,用于迭代计算并判断当前迭代是否收敛;
画像模块,用于利用生成的带标签的第一训练子集进行模型训练,对用户进行画像。
6.如权利要求5所述的装置,其特征在于,所述特征选择模块的特征选择算法包括利用χ2统计量、信息增益、信息增益率、基尼指数进行特征选择。
7.如权利要求5所述的装置,其特征在于,所述迭代计算模块迭代计算的过程为:将第二分类模块的分类结果输入到特征选择模块,重新按照特征选择算法,计算预定义程序名与已分类用户类别的相关性,并在各类别中选出预设数目的相关度最高的程序名。
8.如权利要求5所述的装置,其特征在于,所述迭代计算模块判断当前迭代收敛的条件为:
其中,N为总用户数量,k为迭代次数,∑C1,k、∑C2,k分别代表各类别的用户数量,∑C1,k+∑C2,k+……=N,C1,k-1、∑C2,k-1代表上一次分类结果的用户数量,δ为一预设阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉安天信息技术有限责任公司,未经武汉安天信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710675017.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于光谱特征的视觉追踪方法
- 下一篇:一种蝗虫计数方法及装置