[发明专利]一种文本排序方法及设备在审
申请号: | 201310522789.2 | 申请日: | 2013-10-29 |
公开(公告)号: | CN104572789A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 甘文杰;于晓明;杨建武;张涛 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 排序 方法 设备 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及到一种文本排序方法及设备。
背景技术
搜索引擎是当前竞争非常激烈的一个领域。当用户输入一个关键词后,通常会得到成千上万甚至更多的搜索结果,而对于用户来说,其会希望在显示页面的第一页甚至第一页的前几个网页中即找到自己想要的结果,因此,如何对搜索到的各网页进行排序,将直接影响到用户的用户体验。
TF-IDF(term frequency–inverse document frequency,字词频率-逆向文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。根据搜索词在不同文件中的重要程度,可以确定不同文件与搜索词的关联程度,进而根据关联程度对文件进行排序。
然而,在实现本发明的过程中,申请人发现,TF-IDF算法仅考虑搜索词中的各个子词在文件中的词频,然而词频的高低可能并不能真实反映该文件与搜索词的相关程度,从而无法对搜索结果进行更好的排名。
发明内容
本发明提供了一种文本排序方法,能够更为准确的反映各个文本与检索请求的相关程度,从而对各个文本进行更好的排序。
本发明提供了一种文本排序方法,方法包括:
对每一个待排序文本,获取检索请求query中的每一个子词相对于在所述query与该子词相邻的子词的文本偏移差dpage,dpage表示一个子词在该待排序文本中的位置相对于另一个子词在该待排序文本中的位置的偏移,根据获取到的文本偏移差dpage确定所述query在该待排序文本中的子词偏离系数offset_ratio;
根据各个待排序文本对应的子词偏离系数offset_ratio对各个待排序文本进行排序。
优选的,所述获取检索请求query中的每一个子词相对于在所述query与该子词相邻的子词的文本偏移差dpage,包括:当其中一个子词ti在该待排序文本中对应多个位置时,分别计算在所述query中与ti相邻的子词t(i+1)在该待排序文件中的位置相对于所述多个位置中的每一个位置的偏移,并取各个偏移中的最小值作为ti和t(i+1)在该待排序文本中的文本偏移差dpage。
优选的,所述获取检索请求query中的每一个子词相对于在所述query与该子词相邻的子词的文本偏移差dpage,还包括:
当在query中,子词tj的位置在与其相邻的子词t(j+1)之前,且在一个待排序文本中,t(j+1)的位置f(j+1)在tj的位置fj之前,取位置f(j+1)相对于位置fj实际的偏移与预设值M的和作为位置f(j+1)相对于位置fj的偏移,根据t(j+1)所在的位置相对于tj所在的位置的偏移确定子词tj和t(j+1)在该待排序文本中的文本偏移差dpage(j+1),tj,其中M大于0。
优选的,所述根据获取到的文本偏移差dpage确定所述query在该待排序文本中的子词偏离系数offset_ratio之前,所述方法包括:
针对query中的每一个字词,获取该字词相对于在所述query与该子词相邻的子词的query偏移差dquery,dqurey用于表示一个子词在一个query中的位置相对于另一个子词在同一query中的位置的偏移;
针对query中的每一个字词,获取该字词与在query中与该字词相邻的字词的相交系数,所述相交系数表示相邻的两个子词所共同拥有的元素与所述两个子词合计拥有的元素之间的比值;
所述根据获取到的文本偏移差dpage确定所述query在该待排序文本中的子词偏离系数offset_ratio,具体包括:
分别获取在query中所有相邻的两个子词在该待排序文本中对应的dpage与这两个子词对应的dquery之间的差值dpos;
获取各个dpos与对应的相交系数之间的乘积的和作为所述query在该待排序文本中的偏离总量min_diff;
根据所述偏离总量min_diff确定所述query在该待排序文本中的子词偏离系数offset_ratio。
优选的,所述根据所述偏离总量min_diff确定所述query在该待排序文本中的子词偏离系数offset_ratio,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司;,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310522789.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于文本语义挖掘的标准化自动建档方法
- 下一篇:一种业务数据库查询统计方法