[发明专利]一种基于作者频繁模式的科技文献推荐方法有效
| 申请号: | 201610056602.8 | 申请日: | 2016-01-27 |
| 公开(公告)号: | CN105740387B | 公开(公告)日: | 2019-04-05 |
| 发明(设计)人: | 李玉鑑;杨凯文 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于作者频繁模式的科技文献推荐方法,包括:在Fp‑growth算法中增加处理文献ID(文献唯一编号)的功能,构造出作者频繁模式及其对应的文献集、作者发表的文献和关键字对应的文献集,并去除用户已经浏览过的文献构建出文献推荐候选集。并构建一种计分系统,按照得分从高到底对候选集进行排序,选出得分最高的10篇论文推荐给用户。 | ||
| 搜索关键词: | 一种 基于 作者 频繁 模式 科技 文献 推荐 方法 | ||
【主权项】:
1.一种基于作者频繁模式的科技文献推荐方法,其特征在于:步骤如下,步骤1、收集并整理科技文献,解析成结构化的数据并存储在数据库D表中,其中表中的字段包括:ID文献唯一编号、author文献的作者、keyword关键字和title文献的名称;在数据库中建立存储作者频繁项集及其对应的文献ID集的T_fp表,该表字段为:ID表唯一编号、authors作者频繁项集和papers文献唯一编号ID集,其中每个编号以“,”作为分隔符;设置最小支持度为n,n通常为3,计算作者频繁项集,过程如下:步骤1.1、构建作者FP表L:其中L的数据结构为{作者,文献编号ID集,ID之间以“,”分隔,支持度计数,结点链},其中每行称为作者记录,扫描文献数据库D表一次,统计每个作者发表的文献总数存入作者记录的支持度计数列中,且作者发表的文献编号ID集以“,”为分隔存入作者记录的文献编号ID集列中,按照支持度计数对L中的作者记录降序排序,去除小于最小支持度的作者记录;步骤1.2、构建作者FP树T:其中T中结点的数据结构形式是{作者#文献ID集:支持度计数,结点链指针};创建T的根节点,以“null”标记它,对数据库D表中每篇文献作者集按L中的次序排序并过滤掉在L中不存在的作者,排序结果为:A{A1,A2…An};按照A中Ai的次序构建一条路径,如果此路径与已有的路径有相同的前缀,则可以利用已有的路径,对于已有路径重合部分上的结点计数增加1,追加此文献ID,并以“,”隔开;而对于后面不同的部分创建新的路径,新路径链接在已有重合路径上的最后结点上,如果T中没有路径的前缀和该新路径有重合的部分,将该新路径链接到T的根节点上;该新路径上结点计数设置为1,并记录文献ID;对于新插入的所有结点通过节点链结构将其连接到其他具有相同作者的结点上;步骤1.3、根据作者FP树T构建作者频繁项集并存入T_fp表:步骤1.3.1、记a为已产生的后缀模式,其初始值为空;步骤1.3.2、如果T包含单个路径P,则对路径P中结点的每个组合{Pi1,Pi2...Pir}记为b,其中ir大于0且小于n,P为{P1,P2...Pn},如果n大于10,则只保留前十个结点;循环产生模式bUa,该模式的支持度计数等于b中结点的最小支持度计数,且该模式对应的文献编号ID集为b中具有最小支持度计数结点的文献编号ID集;如果上述产生的模式作者频繁项集中作者数大于等于2,则将该模式及其对应文献ID集存入T_fp表中;步骤1.3.3、如果T包含多个路径,则对L中的每条作者记录ai产生一个模式b=aiUa,ai按照L中支持度计数从小到大的次序产生,其支持度等于ai的支持度,该模式对应的文献编号ID集等于ai中的文献编号ID集;如果b中作者数大于等于2,则将该模式即作者频繁项集及其对应文献ID集存入T_fp表中;步骤1.3.4、在T中找到b的所有前缀,其中每个前缀中所包含的作者集称为b的条件模式基,b的条件模式基的集合记为B,使用步骤1.1至步骤1.2的方法,对B构造条件FP树记为TB;步骤1.3.5、如果TB不等于空集,令a等于b,回到步骤1.3.2递归产生B的作者频繁项集;步骤2、根据用户正在浏览或者点击的兴趣文献计算推荐集S过程如下:步骤2.1、依据文献数据库D表离线统计每个作者发表的文献,保存到数据库T_ap表中,该表字段为:ID数据库表唯一编号、author作者姓名和paperIds作者发表的文献的唯一编号,其中每篇文献唯一编号以“,”隔开;依据文献数据库D表离线计算每个关键词的所有文献,并保存记录到T_kp表中,该表字段为:ID数据库表唯一编号、keyword关键字和paperIds关键字对应的所有文献唯一编号,其中每篇文献唯一编号以“,”分割;步骤2.2、通过查询T_ap表找出每个作者所有的文献集,并根据作者在兴趣献中的次序对于该作者发表的其他文献给定不同的分值,其中第一作者的文献计1分,第二作者的文献计0.5分,第三作者的文献计0.2分,其他作者的文献计0.1分,将选出的文献及其对应的分数存入文献推荐候选集中,如果候选集合中已经存在该文献则对该文献累加计分;步骤2.3、判定兴趣文献的每位作者是否在作者频繁项集即查询T_fp表中存在,若存在,则根据该作者在兴趣文献中出现次序对频繁项集对应的文献计分,其中第一作者的文献计2分,第二作者的文献计1分,第三作者的文献计0.5分,其他作者的文献计0.2分,将选出的文献存入文献推荐候选集中,如果候选集合中已经存在该文献则对该文献累加计分;步骤2.4、通过查询T_kp表得到兴趣文献中的每个关键词对应的所有论文集合将所有的文献计0.8分,将选出的文献存入文献推荐候选集中,如果候选集合中已经存在该文献则对该文献累加计分;步骤2.5、在文献候选集中去除作者已经点击或者浏览的科技文献,选出文献在推荐候选集中得分最高的前十位作为最终推荐给用户的文献。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610056602.8/,转载请声明来源钻瓜专利网。





