[发明专利]一种基于耦合主题模型的协同滤波方法有效
申请号: | 201410069229.0 | 申请日: | 2014-02-27 |
公开(公告)号: | CN103903163B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 王亮;吴书;徐松 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/00 | 分类号: | G06F17/00 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 耦合 主题 模型 协同 滤波 方法 | ||
技术领域
本发明涉及互联网产品的信息推荐领域,特别针对网站系统中同时存在用户生成内容信息以及用户评分信息,如何有效利用用户生成内容并同时结合历史评分信息,准确分析用户偏好和产品属性,为目标用户进行个性化信息产品推荐。
背景技术
随着互联网技术与web2.0的深入发展,用户生成内容(User-generated Content,简称UGC)逐渐成为一种新型的主流网络信息资源。用户生成内容泛指以任何形式在网络上发表的由用户创作的文字、图片、音频、视频等内容,本发明主要针对推荐系统的用户生成内容进行分析,即特定用户对特定产品的UGC,比如推荐系统中用户对产品的标签或评论。
近年来,矩阵分解方法在推荐系统中得到了比较广泛的应用。矩阵分解对每个用户和产品学习一个相应的特征向量,来分别表征用户偏好和产品属性。然后利用学习到的特征向量进行产品推荐。但是传统矩阵分解方法只考虑了对历史评分信息进行分析,并未挖掘文本内容相关的信息,因此学习到的特征向量可解释性较差。
主题模型(比如PLSA、LDA等)是一种在文档集上进行主题挖掘的方法。主题模型可以将高维BOW表征的文档映射到K维主题空间,每个文档用一个K维主题向量来表示。
本发明提出了一种耦合主题模型,其结合矩阵分解与主题模型的优势,同时挖掘历史评分信息与用户生成内容进行个性化产品推荐。本发明学习到的特征向量可以用主题来更好的解释,同时解决了评分信息的稀疏问题。
发明内容
为了解决现有技术存在的问题,本发明的目的是提供一种基于耦合主题模型的协同滤波方法。
所述基于耦合主题模型的协同滤波方法包括以下步骤:
步骤S1,获取用户生成内容记录,每个用户生成内容对应特定的用户和产品;
步骤S2,获取用户对产品的历史评分信息,将部分历史评分信息作为训练集,剩下的作为测试集,分别构建不完全观测评分矩阵,即根据部分用户对部分产品的评分构建不完全观测评分矩阵,得到的训练集评分矩阵R作为耦合主题模型的评分输入;
步骤S3,根据用户生成内容,提取用户文档dU和产品文档dV,其中,所述用户文档dU为与用户有关的用户生成内容,所述产品文档dV为与产品有关的用户生成内容,每个文档使用其包括的单词的词频来表示,并将每个文档的词袋表达向量WU和WV建模为可见单元,作为耦合主题模型的内容输入;
步骤S4,结合所述步骤S2得到的训练集评分矩阵R和所述步骤S3得到的用户文档dU、产品文档dV,利用耦合主题模型学习得到用户特征向量ηU和产品特征向量ηV;
步骤S5,根据步骤S4得到的用户特征向量ηU和产品特征向量ηV,利用计算用户对不同产品的评分,然后将得到的预测评分与测试集评分进行对比,衡量所述耦合主题模型的可靠性,最后针对特定用户,根据预测评分的高低得到推荐产品列表,从而进行产品推荐。
本发明引入了对用户生成内容信息的分析,能够直接的显式的发现用户兴趣和产品属性,而且有效地解决了评分矩阵的稀疏问题,获得比基于用户评分信息的预测更准确的效果。
附图说明
图1是本发明基于耦合主题模型的协同滤波方法的流程图。
图2是用于协同滤波的耦合主题模型的生成示意图。
图3是以电影推荐系统为例,介绍用户生成内容的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明基于矩阵分解与主题模型,提出了耦合主题模型。通过将用户和产品映射到隐含主题空间,对每个用户和产品学习一个K维特征向量η,通过引入逻辑斯谛正态先验替代狄利克雷先验,使得学习到主题向量θ(K为主题向量的数量)的同时,可以学习到更加灵活的特征向量η,所述特征向量η不再受限于相应的单纯形(一个K维的向量θ如果满足那么就称该向量分布在K-1的单纯性上),这样不仅使得特征向量的表达性更好,而且用于矩阵分解进行评分预测也更加灵活。
图1是本发明基于耦合主题模型的协同滤波方法的流程图,如图1所示,所述方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410069229.0/2.html,转载请声明来源钻瓜专利网。