[发明专利]一种基于作者频繁模式的科技文献推荐方法有效
| 申请号: | 201610056602.8 | 申请日: | 2016-01-27 |
| 公开(公告)号: | CN105740387B | 公开(公告)日: | 2019-04-05 |
| 发明(设计)人: | 李玉鑑;杨凯文 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 作者 频繁 模式 科技 文献 推荐 方法 | ||
本发明公开了一种基于作者频繁模式的科技文献推荐方法,包括:在Fp‑growth算法中增加处理文献ID(文献唯一编号)的功能,构造出作者频繁模式及其对应的文献集、作者发表的文献和关键字对应的文献集,并去除用户已经浏览过的文献构建出文献推荐候选集。并构建一种计分系统,按照得分从高到底对候选集进行排序,选出得分最高的10篇论文推荐给用户。
技术领域
本发明属于推荐系统领域,涉及一种基于作者频繁模式的科技文献推荐方法。
背景技术
互联网的出现和普及给用户带来了大量的信息,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载问题。解决信息超载问题一个非常有潜力的办法是推荐系统,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。
关联规则最初提出的动机是针对购物篮分析问题提出的。假设分店经理想更多的了解顾客的购物习惯。特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买,从而帮助他们开发更好的营销策略。
1993年,Agrawal等人首先提出关联规则的概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法。至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。其核心是基于两阶段的频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
众所周知,Apriori算法在产生频繁模式前需要对数据库进行多次扫描,同时产生大量的候选频繁集,这就使Apriori算法时间和空间复杂度较大。而且Apriori算法中有一个很重要的性质:频繁项集的所有非空子集都必须也是频繁的。这个性质导致Apriori算法在挖掘长频繁模式的时候性能低下。为了提高性能,Jiawei Han提出了FP-Growth算法,Fp-growth算法在挖掘频繁模式的时候性能提高10倍以上。
FP-growth算法使用了一种紧缩的数据结构来存储找频繁项集所需要的全部信息。Fp-growth方法将发现长频繁模式的问题转换成在较小的条件数据库中递归地搜索一些较短的模式,然后连接后缀。它使用最不频繁的项作后缀,提供较好的选择性。该方法显著地降低了搜索开销。FP-growth算法中涉及到一些概念:项(事物表示的单位)的集合称为项集。包含k个项的项集成为k项集。集合{computer,software}是一个2项集。项集的出现频度称为支持度,如果项集I支持度满足预定义的最小支持度阈值,则I是频繁项集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610056602.8/2.html,转载请声明来源钻瓜专利网。





