[发明专利]一种基于互信息和改进遗传算法的用户属性特征选择方法在审

专利信息
申请号: 202110292490.7 申请日: 2021-03-18
公开(公告)号: CN112906890A 公开(公告)日: 2021-06-04
发明(设计)人: 曹倩;左敏;姜同强;麻春蕊;王曼 申请(专利权)人: 北京工商大学
主分类号: G06N3/12 分类号: G06N3/12;G06K9/62;G06Q30/02
代理公司: 北京永创新实专利事务所 11121 代理人: 易卜
地址: 100048*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 互信 改进 遗传 算法 用户 属性 特征 选择 方法
【说明书】:

发明公开了一种基于互信息和改进遗传算法的用户属性特征选择方法,属于机器学习领域,具体包括:首先,对各手机用户设置标签并统计用户特征,对每个标签和对应的各个特征之间计算互信息;接着,按照互信息由大到小的顺序进行排序,并筛选互信息大于阈值的特征到初始种群中;同时,在初始种群中随机生成若干特征并赋值;然后,对特征进行编码形成个体并计算每个个体的适应度;利用轮盘赌的比例选择法,按照适应度值计算个体的选择概率,对于选中进入下一代遗传操作的个体,进行交叉、变异操作,产生新一代种群;重复计算新一代种群中个体的适应度,直至终止输出最优特征子集;本发明快速得到最优特征子集,删除了部分冗余特征,分类效果明显。

技术领域

本发明属于机器学习领域,具体涉及一种基于互信息和改进遗传算法的用户属性特征选择方法。

背景技术

随着手机网民规模的逐年扩大,移动互联网已经广泛渗入到人们日常生活的方方面面,改变了人们的生活、社交和娱乐等方式,智能手机的不断普及以及手机网民规模的扩大,导致智能手机的应用市场也呈现爆炸式増长。

智能手机与个人紧密关联,用户在长期使用智能手机的过程中,通过应用商店安装不同的APP来获取需要的服务,手机几乎承载了一个人全部的行为和偏好;通过用户对不同App的安装以及使用数据,能够反映用户的性别,年龄等基本属性、以及生活方式和兴趣偏好等个人信息;用户属性的深入挖掘对个体用户及群体用户的研究均具有较大的意义。

随着智能手机的不断发展,手机中存储的数据集规模和数据维度也在逐渐扩大。海量的数据和特征维度可能存在特征冗余等情况;特征筛选作为用户属性预测的第一步,可以在海量的特征中寻找可解释性较强、与目标变量相关度较高的特征,并剔除无关的冗余特征,从而降低用户属性预测模型的训练时间成本,也有助于提高算法的准确率。

针对特征选择问题,目前的已有研究多集中于考虑单个特征的重要性,使得考量过程往往过于简化,忽略了不同特征之间的关联性,以及关联性对特征重要度的影响,进而降低了大数据特征选择的整体性能。

发明内容

为了对用户属性进行精准预测,高效实现特征选择,本发明提出了一种基于互信息和改进遗传算法的用户属性特征选择方法,通过定义各手机用户的性别及年龄段为标签;同时定义手机中各APP的App安装特征、App使用特征、用户App使用偏好特征、Applist2vec特征为原始特征;根据各标签及原始特征,通过互信息计算特征与标签的相关性,并将筛选后的特征作为遗传算法初始种群的一部分;另一方面,利用类内类间距离构造遗传算法的适应度函数,改进遗传算法进行特征选择,从而为后续的用户属性预测提取出有效的、具有代表性的特征,改善分类器性能,提高分类准确率。

具体步骤如下:

步骤一、海量采集手机用户,对各手机用户的性别及年龄段设为标签sex_age;

sex表示用户性别,取值1、2分别表示男和女;age表示用户年龄段,取值0-10分别对应用户不同的年龄段;

步骤二、同时,将每个用户的App安装特征、App使用特征、用户App使用偏好特征以及Applist2vec特征为原始特征,将每个标签下的用户特征构成原始特征集;

每个标签sex_age都对应M个特征,特征集合为F={f1,f2,…,fi,....fM};最终所有标签的所有特征集合构成了原始特征集。

步骤三、利用互信息算法计算每个标签和对应的各个特征之间的互信息;

针对离散随机变量标签X,以及该标签X对应的某个特征Y,互信息I(X;Y)为:

H(X)表示变量标签X的熵,S为变量标签X的取值范围;p(x)是变量标签X的概率密度分布函数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110292490.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top