[发明专利]一种解决协同过滤推荐技术中冷启动问题的方法及系统有效

专利信息
申请号: 201710634135.7 申请日: 2017-07-29
公开(公告)号: CN107391713B 公开(公告)日: 2020-04-28
发明(设计)人: 田保军;胡培培;杜晓娟;杨浒昀 申请(专利权)人: 内蒙古工业大学
主分类号: G06F16/28 分类号: G06F16/28;G06N3/12
代理公司: 郑州大通专利商标代理有限公司 41111 代理人: 陈勇
地址: 010051 内蒙古*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 解决 协同 过滤 推荐 技术 冷启动 问题 方法 系统
【权利要求书】:

1.一种解决协同过滤推荐技术中冷启动问题的方法,其特征在于,包括以下步骤:

步骤1:选取数据集,所述数据集包括用户-项目评分数据及用户或项目属性信息;

步骤2:基于用户-项目评分数据,通过优化的遗传算法建立初始用户或项目聚类模型;

步骤3:根据初始用户或项目聚类模型,对用户-项目评分数据进行K-Means聚类,得到用户或项目聚类模型;

步骤4:根据新用户或新项目的属性信息及用户或项目属性信息,计算新用户或新项目划分到用户或项目聚类模型各类簇的熵值,根据得出的熵值将新用户或新项目划分到所属类簇;

步骤5:在新用户或新项目所属类簇中,查找新用户或新项目的最近邻居,对新用户或新项目的最近邻居进行推荐,并将推荐结果作为对新用户或新项目的推荐;

在所述步骤2之前还包括:

对遗传算法进行优化,包括:

步骤a.采用加权的轮廓系数作为种群中个体的适应度函数:

f=S (3)

其中,a(i)为样本i到同类簇其他样本的平均距离,b(i)表示样本i到其他类簇内样本平均距离的最小值,S(i)为样本i的轮廓系数,S为聚类模型的轮廓系数,n为聚类模型中样本的个数,f为种群中个体的适应度函数,f′为改进后种群中个体的适应度函数,witer为惯性权系数,iter为当前进化代数,iteravg为平均进化代数,itermax为最大进化代数,wini为最小惯性权系数,wend为最大惯性权系数;

步骤b.将算法中的交叉概率和变异概率按如下公式进行动态调整:

其中,Pc*为遗传算法自适应交叉概率,Pc1、Pc2分别为最大、最小交叉概率,Pm*为遗传算法自适应变异概率,Pm1、Pm2分别为最大、最小变异概率,f′为改进后种群中个体的适应度函数,favg为种群中个体的平均适应度函数值,fmax为个体的最大适应度函数值,Epj为种群中个体j的熵值,Eavg为种群中个体的平均熵值,Emax为种群中个体的最大熵值,k为1/logem,e为自然常数,m为聚类中样本的数量,pij为种群个体j对应的聚类中类簇i包含的对象占聚类所有样本的比例,L为种群个体j对应的聚类中类簇的个数;

所述步骤2包括:

步骤2.1:将用户-项目评分数据转化为用户-项目评分矩阵R;

步骤2.2:输入用户-项目评分矩阵R及当前进化代数iter;

步骤2.3:种群初始化,随机选择M个2~n1/2之间的整数,其中n为用户或项目个数,并将所述M个2~n1/2之间的整数进行二进制编码、转化为二进制数,构成种群的M条染色体,所述染色体为种群中个体;

步骤2.4:对于每一条染色体,在R上随机选取该染色体对应十进制数个元素,作为初始聚类中心,进行K-Means聚类,得到聚类模型;

步骤2.5:利用公式(1)至(5)计算种群中染色体的适应度函数值;

步骤2.6:根据适应度函数值以及当前的进化代数,判断是否达到收敛条件,即是否iterN或|fi-fi-1|=ε,其中,N为正整数,ε为正数,若是,则进行步骤2.11;若否,则进行下一步;

步骤2.7:保留最大适应度函数值对应的染色体,并将该染色体迁移到下一代种群中,替换最小适应度函数值对应的染色体;

步骤2.8:采用轮盘赌策略进行染色体选择操作;

步骤2.9:采用Pc*进行单点交叉操作;

步骤2.10:采用Pm*进行变异操作,得到变异后种群的M条染色体,执行步骤2.4;

步骤2.11:输出最大适应度函数值的染色体,并将其对应的十进制数作为聚类个数k′,进行K-Means聚类,并将对应的聚类结果作为初始用户或项目聚类模型,所述初始用户或项目聚类模型包括初始用户或项目聚类个数k′及初始聚类中心点;

所述步骤4包括:

步骤4.1:统计R中存在评分数据的用户id或项目id;

步骤4.2:将R中存在评分数据的用户或项目对应的用户属性信息或项目属性信息进行离散化处理,得到用户属性信息矩阵U或项目属性信息矩阵I;

步骤4.3:结合用户或项目聚类模型及U或I,将新用户或新项目分别置于用户或项目聚类模型的类簇内,并计算此时类簇的熵值,计算公式如下所示:

其中,ei′为类簇c内用户或项目属性i的熵值,k为1/logem,e为自然常数,m为类簇c中样本的数量,L为用户或项目属性i划分类数,pij为类簇c内第i个用户或项目属性的第j个类别所占比例,q为用户或项目属性个数;

步骤4.4:将新用户或新项目划分到熵值最大的类簇中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710634135.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top