[发明专利]一种基于互信息和改进遗传算法的用户属性特征选择方法在审

专利信息
申请号: 202110292490.7 申请日: 2021-03-18
公开(公告)号: CN112906890A 公开(公告)日: 2021-06-04
发明(设计)人: 曹倩;左敏;姜同强;麻春蕊;王曼 申请(专利权)人: 北京工商大学
主分类号: G06N3/12 分类号: G06N3/12;G06K9/62;G06Q30/02
代理公司: 北京永创新实专利事务所 11121 代理人: 易卜
地址: 100048*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 互信 改进 遗传 算法 用户 属性 特征 选择 方法
【权利要求书】:

1.一种基于互信息和改进遗传算法的用户属性特征选择方法,其特征在于,包括以下步骤:

步骤一、海量采集手机用户,对各用户的性别及年龄段设为标签sex_age;同时,根据用户使用的APP统计用户特征,将每个标签下的用户特征构成原始特征集;

每个标签sex_age都对应M个特征,特征集合为F={f1,f2,…,fi,....fM};最终所有标签的所有特征集合构成了原始特征集;

步骤二、利用互信息算法计算每个标签和对应的各个特征之间的互信息;

步骤三、将每个标签对应的所有互信息,按照由大到小的顺序对各特征进行排序,并将互信息大于阈值Q对应的特征筛选到特征集F'中,作为遗传算法的初始种群;同时,在初始种群中生成若干随机特征,并给每个特征赋值;

阈值Q根据实际需求人为设定;

在初始种群中,互信息值大于阈值Q的特征均设为1,随机生成的特征随机设为0或1;

步骤四、采用二进制编码方式对初始种群中的特征进行编码,形成种群的个体;

初始种群中的每个个体是由L个特征对应的0或1组成的二进制字符串,L为候选特征的总数量;

针对每个个体,依次判断当前第i位的值是否为0,如果是,表示不选择第i位对应的特征fi,否则,值为1表示选择特征fi

步骤五、根据基于类内类间距离的适应度函数,计算初始种群中每个个体的适应度;

步骤六、利用轮盘赌的比例选择法,对种群中的每个个体按照适应度值计算选择概率,将选中的个体进入下一代种群;

步骤七、对于选中进入下一代进行遗传操作的个体,根据自适应的交叉、变异算子进行交叉、变异操作,产生新一代种群;

令交叉概率和变异概率分别记为pc和pm,计算公式为:

其中,pc1、pc2、pm1和pm2为常数,fmax表示当前代种群中所有个体中的最大适应度值,favg表示每一代中所有个体的适应度平均值,f′表示要进行交叉操作的双亲之间较大的适应度值,f表示要进行变异操作的个体的适应度值;

步骤八、计算新一代种群中每个个体的适应度,并判断新一代种群是否达到终止条件,如果是,则输出最优特征子集;否则,返回步骤六;

最优特征子集是指,新一代种群中每个个体中值为1的特征组成的集合;

终止条件为:适应度最优解连续5次保持不变或迭代次数达到最大值。

2.如权利要求1所述的一种基于互信息和改进遗传算法的用户属性特征选择方法,其特征在于,所述的步骤一中,sex表示用户性别,取值1、2分别表示男和女;age表示用户年龄段,取值0-10分别对应用户不同的年龄段;

用户特征包括:每个用户的App安装特征、App使用特征、用户App使用偏好特征以及Applist2vec特征。

3.如权利要求1所述的一种基于互信息和改进遗传算法的用户属性特征选择方法,其特征在于,步骤二中所述互信息的计算具体为:

针对离散随机变量标签X,以及该标签X对应的某个特征Y,互信息I(X;Y)为:

H(X)表示变量标签X的熵,S为变量标签X的取值范围;p(x)是变量标签X的概率密度分布函数;

H(X|Y)表示条件熵,用来对已知变量Y后X取值的不确定性进行度量,表示为:

p(x,y)是变量标签X和变量标签Y的联合概率密度分布函数;T为变量标签Y的取值范围;p(x|y)代表当变量Y取值为y时,X取值为x的概率;

由此,得到标签X下的M个特征对应的M个互信息结果。

4.如权利要求1所述的一种基于互信息和改进遗传算法的用户属性特征选择方法,其特征在于,所述步骤七中每个个体被选中的概率与其适应度大小成正比,针对个体xi进入到下一代进行遗传操作的概率p(xi)如下式:

其中n为个体的数量,个体xi的适应度为f(xi)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110292490.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top