[发明专利]一种基于相关性和重要性的文献搜索排序方法及电子设备在审
申请号: | 202211156862.4 | 申请日: | 2022-09-22 |
公开(公告)号: | CN115438155A | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 马明;张佳玮;刘冰 | 申请(专利权)人: | 《中华医学杂志》社有限责任公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F11/34;G06F16/338;G06F11/30;G06Q10/06 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 钟继莲 |
地址: | 100010 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相关性 重要性 文献 搜索 排序 方法 电子设备 | ||
本发明实施例公开了一种基于相关性和重要性的文献搜索排序方法及电子设备。方法包括:获取用户输入的待搜索数据;根据所述待搜索数据计算相关性排序指标;计算重要性排序指标;根据所述相关性排序指标、重要性排序指标和算法公式得到文章最终评分;根据所述文章最终评分进行搜索结果排序。实施本发明实施例,在学术文献搜索排序中,综合考虑了文章的相关性和重要性,并将两者进行有机结合后提出了一种综合性的排序算法。基于该排序算法所得到的文章搜索排序结果更加符合用户的预期。
技术领域
本发明涉及文献搜索技术领域,具体涉及一种基于相关性和重要性的文献搜索排序方法及电子设备。
背景技术
在文献搜索领域,一般是基于词袋模型(例如TF-IDF)来评估文章的相关性以进行排序展示。用户一般会对近期发表的文章比较感兴趣,同时会更关注学术影响力较强的文章,如有只采用词袋模型进行文献搜索时,所得到的文献搜索结果的排序和用户上述的预期会产生一定偏差,无法满足用户需求。
此外,在实际研究中,本申请发明人发现:用户所键入的检索词或者句子在分词后形成多个词,这些词的位置和顺序在实际搜索时却并没被词袋模型所考虑。但这一点在全文检索中尤其重要。
发明内容
针对现有技术存在的上述缺陷,本发明实施例的目的在于提供一种基于相关性和重要性的文献搜索排序方法及电子设备。
为实现上述目的,第一方面,本发明实施例提供了一种基于相关性和重要性的文献搜索排序方法,包括:
获取用户输入的待搜索数据;
根据所述待搜索数据计算相关性排序指标;
计算重要性排序指标;
根据所述相关性排序指标、重要性排序指标和算法公式得到文章最终评分;
根据所述文章最终评分进行搜索结果排序。
作为本申请的一种具体实施方式,所述相关性排序指标包括BM25算法的评分、搜索词的近邻关系累计评分;根据所述待搜索数据计算相关性排序指标具体为:
基于BM25算法,采用Elasticsearch引擎对所述待搜索数据进行处理,得到BM25算法的评分;
采用Elasticsearch引擎对所述待搜索数据进行处理,得到搜索词的近邻关系累计评分。
其中,近邻关系累计评分通过elasticsearch引擎的脚本评分进行自定义实现,每个词出现的位置可通过配置elasticsearch引擎的term_vector中的with_position_offsets获得,每个搜索词的逆文档频率可通过elasticsearch引擎的_termverctor接口获得。
作为本申请的一种具体实施方式,所述重要性排序指标包括文章学术影响力评分、文章类型评分和时间衰减因子,计算重要性排序指标具体为:
采用neo4j的插件计算文章学术影响力评分;
采用Elasticsearch引擎所提供的脚本评分计算时间衰减因子。
在本申请的某些具体实施方式中,所述算法公式表示为:
ScoreFinal=k0×ScoreRelevance×DecayFactor+k1×ScoreArticleRank+k2×ScoredocType
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于《中华医学杂志》社有限责任公司,未经《中华医学杂志》社有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211156862.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于剩余需求曲线的光储系统运行方法及装置
- 下一篇:一种泡萝卜香精