[发明专利]一种基于深度对齐矩阵分解模型进行学术论文推荐的方法有效
申请号: | 201810473752.8 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108763367B | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 戴新宇;戴瑾;黄书剑;张建兵;尹存燕;陈家骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F40/30 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 对齐 矩阵 分解 模型 进行 学术论文 推荐 方法 | ||
本发明公开了一种基于深度对齐矩阵分解模型进行学术论文推荐的方法,包括:分别通过两个非线性多层感知器,将用户和论文以及论文和单词映射到相同维度的低维特征空间;通过最大化同一篇论文的两种低维表示向量之间的相似度,在两个非线性多层感知器之间搭建起一个“桥梁”。最后,通过这个“论文信息桥梁”传递信息,轮流训练这两部分感知器。由于通过这种方法,在训练“用户‑论文”部分的感知器时,能借助“论文‑单词”部分的信息;在训练“论文‑单词”部分的感知器时,能借助“用户‑论文”部分的信息。所以,本发明可以同时使用“用户‑论文收藏记录”、“论文内容文本信息”,共同为用户论文推荐做贡献。
技术领域
本发明涉及一种基于深度对齐矩阵分解模型进行学术论文推荐的方法。
背景技术
目前,随着互联网的发展,网上充斥着大量的学术论文,导致研究者们面临严重的信息过剩的问题。据估计,截至2014年,网上已经有几百亿的学术论文了,而且还在以每天6,000多篇的数量增长。如何能帮助研究者用户们快速的从如此大量的论文库中找到他们可能感兴趣的文章,成为人们关注的问题。
当前大多数相关工作采用基于关键词检索的方法,将学术论文当作普通的一些网页处理。然而这些方法既忽略了论文本身的结构化特征,也没有针对用户进行个性化建模。近年来,随着如Mendeley、CiteULike等社交网络的兴起,提供了大量的“用户-论文”交互信息。例如:CiteULike网站上,用户可以创建他们自己的图书馆用来存放他们喜欢论文。有了这些数据,可以使用学术论文推荐算法处理论文数量过多、信息过剩的问题。
现有的一些工作,主要利用“用户-论文”交互信息,基于假设“对于相似的论文,用户倾向于给出相似的打分”,使用基于协同过滤的推荐算法解决学术论文推荐问题。在众多的基于协同过滤的方法中,矩阵分解是一种比较成功的方法,并被广泛使用在很多推荐领域如“电影推荐”、“社交网络推荐”等。基于矩阵分解的协同过滤方法的主要思想是将“用户-项目”打分矩阵分解到低维空间,然后在低维空间上通过相似度计算进行推荐。
然而仅仅使用“用户-论文”交互信息的协同过滤方法会面临冷启动的问题,即一篇未被打分过的新论文不会被考虑推荐用户。因此,当前已经有一些工作探索如何能在协同过滤的基础上,使用“论文本身的文本内容”作为辅助信息,进行更好的推荐。例如:协同话题回归模型(Collaborative Topic Regression Model,简称CTR)、协同深度学习模型(Collaborative Deep Learning Model,简称CDL)。
CTR将潜在狄利克雷分配(Latent Dirichlet Allocation,简称LDA)文本处理模型和概率协同过滤模型(Probabilistic Matrix Factorization,简称PMF)结合在一起,做混合推荐。然而,当论文文本信息稀疏时,LDA的表现不是很好。因此,CDL在CTR的基础上,代替LDA,进一步使用深度学习方法多层降噪自动编码机Stacked Denoising Autoencoders,简称SDAE)模型处理文本内容,并和PMF结合起来做混合推荐。
上述的混合方法是利用论文的文本内容解决协同过滤方法中的冷启动问题,而对“用户-论文”打分矩阵稀疏问题,没有大的改善。另外,它们对两种数据源信息的融合方法是直接将辅助的文本信息直接“加和”到协同过滤的过程中,这种处理方式显然太粗糙,对两种数据源的融合并不是很深入。于是,本发明希望找到一种新的混合推荐模型,能够在使用“用户-论文交互信息”的协同过滤方法基础上,更好的利用“论文本身的文本内容”这种辅助信息解决交互数据稀疏以及论文冷启动的问题,进行更好的学术论文推荐。
发明内容
发明目的:为了克服现有协同过滤推荐方法中“用户-论文交互数据稀疏”以及论文冷启动的问题,本发明使用了一种新型的混合推荐算法,将论文的文本内容加入到基于协同过滤推荐的算法中,同时使用“用户-论文交互”以及“论文的文本内容”两种数据源的信息,向用户推荐其感兴趣的学术论文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810473752.8/2.html,转载请声明来源钻瓜专利网。