[发明专利]一种信息检索结果排序方法、计算机设备和存储介质在审
| 申请号: | 202010656908.3 | 申请日: | 2020-07-09 |
| 公开(公告)号: | CN111831936A | 公开(公告)日: | 2020-10-27 |
| 发明(设计)人: | 黎阳;申义;侯颖;刘大伟;王涛 | 申请(专利权)人: | 威海天鑫现代服务技术研究院有限公司 |
| 主分类号: | G06F16/9538 | 分类号: | G06F16/9538 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 264200 山东省威海市火炬高*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 信息 检索 结果 排序 方法 计算机 设备 存储 介质 | ||
本发明适用于信息检索技术领域,提供了一种信息检索结果排序方法,包括标注训练数据、文本特征抽取、训练学习函数等步骤,本发明的有益效果是:根据与查询相关信息,如点击数据、网页的锚文本和PageRank得分等,将这些信息融入到特征模型中,并使用学习排序技术自动构建排名模型,在信息检索、自然语言处理和数据挖掘等领域具有广阔的应用前景。
技术领域
本发明涉及信息检索技术领域,尤其涉及一种信息检索结果排序方法、计算机设备和存储介质。
背景技术
在信息检索领域,传统的排序方法是通过构造一个排序函数实现,一般按照相关度进行排序。比较典型的是搜索引擎中一条查询,将返回一个相关的文档,然后根据检索关键字和文档之间的相关度进行排序,再返回给用户。
而随着影响相关度的因素变多,使用传统排序方法变得困难。传统的排序方法很难融合多种信息,比如向量空间模型以tf*idf作为权重构建相关度函数,就很难利用其他信息,并且如果模型中参数比较多,也会使得调参非常困难,而且很可能会出现过拟合现象。
基于此,本申请提出了一种信息检索结果排序方法、计算机设备和存储介质。
发明内容
本发明实施例的目的在于提供一种信息检索结果排序方法、计算机设备和存储介质,旨在解决背景技术中提出的技术问题。
本发明实施例是这样实现的,一种信息检索结果排序方法,包括以下步骤:
标注训练数据
寻找与查询相关的文档,并对文档进行相关度排序;具体的,
文本特征抽取
确定文档的特征数量,将所述文档转换成特征向量,形成包含有特征向量和相关度的训练实例;
训练学习函数
定义Q={q1,q2,L,qm}为查询集,qi为第i个查询,D为与查询集Q相关的文档集,其中,Di={di,1,di,2,L,di,ni}为与qi查询相关的文档集,di,j表示文档集Di中的第i个文档,Y={1,2,L,1}是相关度集,其中,yi={yi,1,yi,2,L,yi,ni}为与qi查询相关的文档相关度集;
由此可得原始训练集为特征向量由每个查询文档对(qi,di,j),i=1,2,L,m;j=1,2,,ni生成,为特征函数;
Xi={xi,1,xi,2,L xi,ni},设定训练数据集x∈X且以训练局部排序模型f(q,d)=f(x),将分数赋予给定的查询文档对(q,d),对训练数据集S'输出分数列表;
依据分数列表对文档集Di定义排名表Rankinglistπi,通过下标做双向映射,以πi表示所有文档在文档集Di内的可能映射,πi(j)代表第j个文档在πi中的排序,排序方式通过f(qi,di)对查询qi选择一个排序映射πi∈∏i和文档集Di;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于威海天鑫现代服务技术研究院有限公司,未经威海天鑫现代服务技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010656908.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:应用的切换显示方法、装置及电子设备
- 下一篇:一种楼宇设施可视化展示装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





