[发明专利]一种基于标签迁移学习的推荐方法无效
| 申请号: | 201110419665.2 | 申请日: | 2011-12-15 |
| 公开(公告)号: | CN102591915A | 公开(公告)日: | 2012-07-18 |
| 发明(设计)人: | 刘嘉;王维清;陈振宇;祁奇;赵志宏 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 黄明哲 |
| 地址: | 210093 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 标签 迁移 学习 推荐 方法 | ||
1.一种基于标签迁移学习的推荐方法,其特征是从标签数据丰富的源数据集学习知识迁移到标签数据不足的目标数据集,用于标签数据不足的网站对用户进行个性化推荐,迁移的知识是标签之间的关系,具体表现形式是标签聚类后形成的主题topic,包括以下步骤:
1)分别在源数据集和目标数据集预先对标签数据进行清洗,对源数据集的标签进行聚类,得到标签的topic集合;
2)迁移标签的topic集合到目标数据集:迁移标签的topic集合的目标是将目标数据集上的每一个标签都放到一个与该标签距离最小的topic中,如果从源数据集上迁移过来的所有topic与该标签的距离都比较远,则该标签将形成一个新的topic,具体步骤如下:
遍历目标数据集上的所有标签,对每一个标签:
2.1)如果该标签也存在于源数据集上,则它本来就存在于迁移过来的某一个topic中;
2.2)如果该标签在源数据集上不存在,则在目标数据集上计算它和每一个topic的距离,并设定划分阈值:
A:如果最近的距离不大于划分阈值,把这个标签放在距离最近的topic中;
B:如果最近的距离大于划分阈值,把这个标签作为一个新的topic;
3)在目标数据集上进行推荐,根据步骤2)中得到的topic集合,同时结合用户评分数据,计算得到用户对标签topic的评分,根据用户对标签topic的评分采用基于用户的协同过滤技术完成推荐。
2.根据权利要求1所述的一种基于标签迁移学习的推荐方法,其特征是步骤1)具体为:
1.1)分别在源数据集和目标数据集预先对标签数据进行清洗,包括筛选和去除两种方法:一、选择被两个以上用户使用过,并被用于5个以上产品的标签;二、设定删除关键词,去除含有所设定关键词的标签;
1.2)对源数据集中的标签通过层次聚类,得到标签的topic集合,计算标签的共现概率分布,再用延森-香农分歧JSD来计算标签之间的距离,根据JSD距离,对源数据集上面的标签进行聚类。
3.根据权利要求2所述的一种基于标签迁移学习的推荐方法,其特征是步骤1.2)具体为:
1.2.1)对源数据集中的标签的共现概率分布进行计算,得到标签的相关度矩阵,标签z的共现概率分布为(pz(t1),pz(t2),pz(t3),.....,pz(ti),.......pz(tn)),其中,n表示数据集中标签的总数,ti表示数据集中的第i个标签,pz(ti)表示标签z和标签ti的共现概率;
标签z和数据集中任意一个标签t的共现概率的计算公式如式(1):
pz(t)=∑m∈Iq(t|m)Q(m|z) (1)
其中,I代表所有产品的集合,q(t|m)代表在确定产品m的前提条件下,对m使用标签t的概率,Q(M|z)代表在确定标签z的前提条件下,z被用于产品m的概率,pz(t)代表在确定标签z的前提条件下,标签t也被用于同一件产品的概率;
1.2.2)利用JSD计算标签之间的距离,JSD算法的输入是两个标签的共现概率分布,输出是两个标签的距离;
设一个标签的共现概率分布是向量P,另一个标签的共现概率分布是向量Q,那么利用JSD计算这两个标签距离的如公式(4)和公式(5):
在计算D(P‖Q)时,如果P(i)为0,即出现0log0项,该项的取值为0;
1.2.3)根据JSD距离,对源数据集上面的标签进行聚类,聚类采用层次聚类方法,具体步骤如下:
1.2.3.1)将每个标签归为一类,共得到N类,每类仅包含一个标签,类与类之间的距离就是它们所包含的标签之间的距离;
1.2.3.2)找到距离最近的两个类并合并成一类;
1.2.3.3)重新计算新合并的类与所有旧类之间的距离,计算两个类的之间的距离时,计算全部两个类之中的标签的距离,然后对这些标签的距离进行加和求平均,得到新合并的类与所有旧类之间的距离;
1.2.3.4)重复步骤1.2.3.2)和1.2.3.3),直到最后剩余的类的数目到确定的阈值为止。
4.根据权利要求1所述的一种基于标签迁移学习的推荐方法,其特征是步骤3)包括以下具体步骤:
3.1)在目标数据集上计算每个用户对每一个topic的评分,每个产品item对应有标签,根据用户对item的评分和item与topic之间的关系来计算用户对topic的评分:
用户u对一个topic的评分的计算如式(6):
其中,tt代表一个topic,Iu代表用户u评过分的产品的集合;w(m,tt)代表topic tt在item m中的权重;Ttt表示topic tt中的标签集合,n表示Ttt中的标签个数;w(m,t)代表标签t在产品m中的权重;Tm代表产品m上的标签的集合;n(m,z)代表标签z被用于产品m的次数;
3.2)在目标数据集上根据每个用户对每一个topic的评分,计算用户之间的相似度,两个用户u和v间的相似度计算如等式(9):
其中,Tu,v代表用户u和v共同评过分的标签topic的集合;和分别代表用户u和v对Tu,v中所有topic的平均评分;
3.3)根据用户之间的相似度来预测用户对产品的评分,用户u对产品m的评分计算公式如等式(10):
其中,Um代表所有对m评过分的用户集合,和分别代表用户u和v对所有产品m的平均评分;
根据预测目标用户u对产品的实时评分ru,m,对目标用户进行个性化推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110419665.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多孔聚酰亚胺微球的制备方法
- 下一篇:节能蒸馏塔组件





