[发明专利]一种基于Pagerank算法的科技资源匹配方法在审
申请号: | 202110564589.8 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113343062A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 徐昱琳;李璇;周文举;易开祥;费敏锐 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/33;G06F16/338 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 pagerank 算法 科技 资源 匹配 方法 | ||
本发明公开了一种基于Pagerank算法的科技资源匹配方法,从科技资源中的学术文献出发,文献作为查询对象本身具有文献价值,文献价值由文献自身固有价值与被引获得价值二者的加权求和来计算。Elasticsearch使用的相关度计算公式主要借鉴了词频/逆向文档频率和向量空间模型,未考虑到查询对象自身所具有的文献价值。为快速而准确地找到最有价值又符合期望的文献,本发明构建一种Elasticsearch文献搜索引擎,使用基于Pagerank算法提出一种新的文献价值排序算法来计算文献价值,根据Elasticsearch原有计算相关度规则,加入文献价值因素,得到新的相关度排序规则。在此文献价值排序算法成熟之后,将其思想用于其他科技资源,通过修改算法细节得到知识产权、人力资源、政策咨询等价值排序算法。
技术领域
本发明涉及搜索引擎,资源匹配领域,具体涉及一种基于Pagerank算法的科技资源匹配算法的构建。
背景技术
随着社会的发展,人类对科技资源共享的需求日益增长,搜索引擎也成为人们获取海量信息的重要工具。学术文献是科技资源的重要组成部分,用户主要通过学术搜索引擎获取学术文献。近年来,不论是搜索引擎公司还是数据库商,先后推出了用于学术文献检索的搜索引擎,为用户提供学术搜索服务,如Google Scholar、百度学术、Cnki学术,Web ofScience等。目前国内许多网站使用的搜索引擎使用了Elasticsearch技术。Elasticsearch是一个用Java语言开发,基于Lucene的搜索服务器,可根据输入关键词实现搜索功能。
Elasticsearch可将用户的数据保存到Elasticsearch数据库中,通过分词器将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时,再根据权重将结果排名,打分,将返回结果呈现给用户。针对科技资源中的文献匹配,利用检索词频率/反向文档频率的Elasticsearch的相关度算法仅考虑与搜索词相关程度,未考虑文献本身价值大小,可能在匹配过程中,导致相似度略低但文献价值高的文献在排序上不占优势。
Pagerank算法是Google的网页排序算法,对每个目标网页附上权值,根据权值大小决定排序先后。类比于网页排序问题,国内有学者提出将Pagerank算法应用在文献的排序上,同时将文献价值定义为自身固有价值与被引用后获得价值的加权求和。文献固有价值主要由文献所发表的刊物或会议的级别及作者的权威性决定,同时用发表年限作为衡量参考文献重要性的标准以刻画价值传递的权重。纵观大量关于文献价值排序的论文,依旧存在文献由于发表时间先后导致的排序不合理问题。
发明内容
为了解决现有技术问题,本发明的目的在于克服已有技术存在的不足,提供一种基于Pagerank算法的科技资源匹配方法,从科技资源中的文献资源入手,将文献价值算法引入Elasticsearch相关度计算中,从而搭建一种考虑文献价值的文献搜索引擎。该方法构建的相关度排序考虑了文献价值排序,主要针对论文文献,使价值排序满足需要。
为达到上述发明创造目的,本发明采用如下发明构思:
本发明的原理在于:本发明方法中论文文献价值排序算法基于Pagerank改进算法,利用发表时间不同来决定新旧文献价值评估的侧重点,同时引入被引量,下载量和影响因子来刻画自身固有价值,被引获得的价值可以由文献互相引用获得价值来决定,最后得到一种新的文献价值排序算法,评出论文文献的价值分数,结合Elasticsearch的相关度分数算出最后决定排序的总分数,从而实现考虑文献价值的文献搜索引擎,并在此文献价值排序算法成熟之后,将其思想用于其他科技资源,可通过修改算法细节得到知识产权、人力资源、政策咨询等的价值排序算法。
根据上述发明构思,本发明采用如下技术方案:
一种基于Pagerank算法的科技资源匹配方法,包含以下步骤:
步骤1:使用IDEA软件的Spring框架,搭建基础的Elasticsearch搜索引擎;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110564589.8/2.html,转载请声明来源钻瓜专利网。