[发明专利]一种基于层次结构子话题的搜索结果多样化排序方法在审
申请号: | 201510888616.1 | 申请日: | 2015-12-07 |
公开(公告)号: | CN105488195A | 公开(公告)日: | 2016-04-13 |
发明(设计)人: | 窦志成;文继荣;胡莎 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层次 结构 话题 搜索 结果 多样化 排序 方法 | ||
技术领域
本发明涉及一种基于层次结构子话题的搜索结果多样化排序方法。
背景技术
互联网信息越来越全面的覆盖了人们的日常生活,用户逐渐习惯依赖于搜索引擎 来查找自己需要的信息。大量研究表明,在提交给搜索引擎中的查询中,有相当部分的查询 是短文本查询。这些短文本查询由于信息量少,在解释用户意图时,通常是有歧义的,或者 有多重含义的。常见的有歧义的查询,例如,搜索“苹果”,有的用户可能是在找关于著名的 苹果公司的相关信息,有的用户则是关心水果苹果相关的信息;搜索“人大”,某些用户可能 是在找关于著名高校中国人民大学的相关信息,某些用户查找的则是全国人民代表大会的 相关信息。而多重含义的查询,是指在该查询下常包含了多个领域,例如,搜索“红楼梦”,用 户实际是想找与该查询相关的一个具体领域,如“红楼梦电视剧”,“红楼梦著作”,“红楼梦 人物”,“红楼梦明星”等。搜索结果多样化技术旨在解决上述问题。
目前,搜索结果多样化方法可以划分为两大类:隐性(implicit)方法和显性 (explicit)方法。早期的多样化技术大多属于隐性多样化模型,其中最有影响力的工作之 一是Carbonell和Goldstein在1998年提出的MMR算法。这类隐性方法认为,如果两个文档 (搜索结果)的文本内容越相似,则这两个文档涉及的话题越相似,冗余性越高。如果能减少 排序中的冗余文档,即可提高排序的多样性。于是,在多样化重排序时,隐性方法侧重于比 较文档间的相似度,将更新颖的文档排在前面,从而实现搜索结果多样化。但是,由于该类 方法在多样化时只完成了冗余处理,没有明确查询的用户意图。因此,该方法不知道哪些用 户意图更应该被覆盖,不能有目的地完成多样化,其效果有限。
显性方法又称为基于子话题的方法,是目前搜索多样化技术的主流。该类方法明 确地利用子话题模拟用户意图,并通过子话题对搜索结果进行多样化。显性方法认为,两个 文档覆盖的子话题的相似性即为两个文档的相似性,而一个更多样化的文档排序应该在有 限的结果中覆盖尽可能多的子话题。
在现有的显性方法中,一个查询的用户意图通常表示为一个子话题列表形式,其 中每个子话题对应一个用户意图。对于一个查询,获取相关子话题列表的方法有很多,包 括:用查询的分类信息作为子话题,巧用搜索引擎获取相关子话题,分析结果文档的短语或 词组生成子话题,或者联合多个外部资源生成组合子话题等。例如,用Google的查询推荐和 相关查询来代表查询的用户意图;从比较相关的检索文档中抽取单词和短语生成查询意 图。从四类不同类型的数据中挖掘子话题。
在搜索结果多样化方向的国际竞赛或评测任务中(如TRECWebTrack的 Diversitytask,和NTCIR的Intent/IMinetask),查询的子话题由标注人员的主观标注确 定,视为真实的用户意图。多样化算法中使用的子话题应该尽可能地贴近真实用户意图,方 能得到让真实用户满意的多样化结果。然而,由于多样化算法中的子话题是根据查询自动 地生成的,很难完美地和真实的用户意图相匹配。而目前多样化方法中主要采用列表形式 的子话题,很难找到合适粒度的子话题能够完美匹配真实的用户意图。而真实的用户意图 本身则是隐含逻辑的层次结构。
因此,如何解决上述问题成为本领域技术人员亟需解决的技术问题。
发明内容
针对背景技术中存在的问题,本发明的目的在于提供一种基于层次结构子话题的 搜索结果多样化排序方法,该方法定义了查询的层次结构子话题,以及多层子话题和查询、 文档间的相关性推算方法,基于该层次结构子话题的搜索结果多样化算法,能够灵活地利 用不同粒度的子话题,更准确地匹配真实用户意图,从而提高搜索结果的多样性。
本发明的目的是通过以下技术方案来实现的:
一种基于层次结构子话题的搜索结果多样化排序方法,所述方法包括如下步骤:
1)定义查询词的层次结构树状子话题的表示方法;
2)对层次结构子话题和查询、文档的相关性进行估算;
3)建立基于查询词的层次结构子话题的搜索结果多样化模型;
其中,所述步骤3)通过两种排序方法的任一种实现:
a)排序方法一:根据层次结构话题新颖性模型对文档进行多样化排序;
b)排序方法二:根据层次结构话题比例模型对文档进行多样化排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510888616.1/2.html,转载请声明来源钻瓜专利网。