[发明专利]一种基于标签迁移学习的推荐方法无效
| 申请号: | 201110419665.2 | 申请日: | 2011-12-15 |
| 公开(公告)号: | CN102591915A | 公开(公告)日: | 2012-07-18 |
| 发明(设计)人: | 刘嘉;王维清;陈振宇;祁奇;赵志宏 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 黄明哲 |
| 地址: | 210093 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 标签 迁移 学习 推荐 方法 | ||
技术领域
本发明属于WEB应用技术领域,涉及迁移学习及网络标签技术,为一种基于标签迁移学习的推荐方法。
背景技术
随着互联网的不断发展,互联网的信息快速膨胀,个性化推荐技术越来越重要。个性化推荐技术能够帮助用户在海量信息中快速找到自己需要的信息。个性化推荐技术根据对用户特征以及用户历史行为的分析发现客户的真正兴趣,对每个特定用户都进行专门的推荐,使得推荐的产品或服务最大程度上符合客户的需要。
迁移学习,它的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。我们看到web应用领域的发展非常快速。大量新的领域不断涌现,而传统的个性化推荐技术在实际应用中需要对每个领域都标定大量的训练数据,但是在现实中,很多新出现的领域中的大量训练数据非常难得到,但是如果我们有了大量的,但是处于不同分布下的训练数据,我们期望能够合理的利用这些数据来进行个性化推荐,迁移学习研究的主要问题就是如何合理的利用这些数据。
标签,在人类认识世界的过程中,为了记忆和查找的便利,常常要对所认识的对象进行标签。近年来,随着一种以用户为中心的网络概念的发展,网络用户在不断创造信息的同时,也需要按照自己的需求,以不同的方式有效地组织各类信息,于是,不受传统信息组织规范约束,完全出于个人喜好的标签方式,逐渐成为人们推崇的数字信息组织的主要方法。
在传统的结合评分数据和标签数据的个性化推荐方法中,根据用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据,然后采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度。
在计算用户对标签的评分数据时,为了解决数据稀疏问题,有人提出了先计算标签的共同发生概率分布,然后再计算用户对标签的评分,计算标签z的共同发生概率分布计算的公式如等式(1)所示:
pz(t)=∑m∈Iq(t|m)Q(m|z) (1)
但是如果是一个新出现的领域,标签数据比较稀疏,在计算q(t|m)和Q(m|z)时,分子会出现很多零值,那么标签z的共现概率分布按照(1)中的公式计算就可能不精确,从而导致用户之间的相似度计算不准确,最终导致个性化推荐的结果不准确。
结合用户的评分数据和标签数据进行推荐的个性化推荐方法要求有比较丰富的标签数据,而实际上,对一个新的领域进行标签是一个很耗费人力和物力的活动。
发明内容
本发明所要解决的技术问题是:现有的结合用户的评分数据和标签数据进行协同过滤推荐的个性化推荐方法在标签数据稀少的情况下,计算得到的用户相似度可能不精确,从而影响推荐的效果。
本发明的技术方案为:一种基于标签迁移学习的推荐方法,从标签数据丰富的源数据集学习知识迁移到标签数据不足的目标数据集,用于标签数据不足的网站对用户进行个性化推荐,迁移的知识是标签之间的关系,具体表现形式是标签聚类后形成的主题topic,包括以下步骤:
1)分别在源数据集和目标数据集预先对标签数据进行清洗,对源数据集的标签进行聚类,得到标签的topic集合;
2)迁移标签的topic集合到目标数据集:迁移标签的topic集合的目标是将目标数据集上的每一个标签都放到一个与该标签距离最小的topic中,如果从源数据集上迁移过来的所有topic与该标签的距离都比较远,则该标签将形成一个新的topic,具体步骤如下:
遍历目标数据集上的所有标签,对每一个标签:
2.1)如果该标签也存在于源数据集上,则它本来就存在于迁移过来的某一个topic中;
2.2)如果该标签在源数据集上不存在,则在目标数据集上计算它和每一个topic的距离,并设定划分阈值:
A:如果最近的距离不大于划分阈值,把这个标签放在距离最近的topic中;
B:如果最近的距离大于划分阈值,把这个标签作为一个新的topic;
3)在目标数据集上进行推荐,根据步骤2)中得到的topic集合,同时结合用户评分数据,计算得到用户对标签topic的评分,根据用户对标签topic的评分采用基于用户的协同过滤技术完成推荐。
步骤1)具体为:
1.1)分别在源数据集和目标数据集预先对标签数据进行清洗,包括筛选和去除两种方法:一、选择被两个以上用户使用过,并被用于5个以上产品的标签;
二、设定删除关键词,去除含有所设定关键词的标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110419665.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多孔聚酰亚胺微球的制备方法
- 下一篇:节能蒸馏塔组件





