[发明专利]一种基于层次结构子话题的搜索结果多样化排序方法在审

专利信息
申请号: 201510888616.1 申请日: 2015-12-07
公开(公告)号: CN105488195A 公开(公告)日: 2016-04-13
发明(设计)人: 窦志成;文继荣;胡莎 申请(专利权)人: 中国人民大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100872 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 层次 结构 话题 搜索 结果 多样化 排序 方法
【说明书】:

技术领域

发明涉及一种基于层次结构子话题的搜索结果多样化排序方法。

背景技术

互联网信息越来越全面的覆盖了人们的日常生活,用户逐渐习惯依赖于搜索引擎 来查找自己需要的信息。大量研究表明,在提交给搜索引擎中的查询中,有相当部分的查询 是短文本查询。这些短文本查询由于信息量少,在解释用户意图时,通常是有歧义的,或者 有多重含义的。常见的有歧义的查询,例如,搜索“苹果”,有的用户可能是在找关于著名的 苹果公司的相关信息,有的用户则是关心水果苹果相关的信息;搜索“人大”,某些用户可能 是在找关于著名高校中国人民大学的相关信息,某些用户查找的则是全国人民代表大会的 相关信息。而多重含义的查询,是指在该查询下常包含了多个领域,例如,搜索“红楼梦”,用 户实际是想找与该查询相关的一个具体领域,如“红楼梦电视剧”,“红楼梦著作”,“红楼梦 人物”,“红楼梦明星”等。搜索结果多样化技术旨在解决上述问题。

目前,搜索结果多样化方法可以划分为两大类:隐性(implicit)方法和显性 (explicit)方法。早期的多样化技术大多属于隐性多样化模型,其中最有影响力的工作之 一是Carbonell和Goldstein在1998年提出的MMR算法。这类隐性方法认为,如果两个文档 (搜索结果)的文本内容越相似,则这两个文档涉及的话题越相似,冗余性越高。如果能减少 排序中的冗余文档,即可提高排序的多样性。于是,在多样化重排序时,隐性方法侧重于比 较文档间的相似度,将更新颖的文档排在前面,从而实现搜索结果多样化。但是,由于该类 方法在多样化时只完成了冗余处理,没有明确查询的用户意图。因此,该方法不知道哪些用 户意图更应该被覆盖,不能有目的地完成多样化,其效果有限。

显性方法又称为基于子话题的方法,是目前搜索多样化技术的主流。该类方法明 确地利用子话题模拟用户意图,并通过子话题对搜索结果进行多样化。显性方法认为,两个 文档覆盖的子话题的相似性即为两个文档的相似性,而一个更多样化的文档排序应该在有 限的结果中覆盖尽可能多的子话题。

在现有的显性方法中,一个查询的用户意图通常表示为一个子话题列表形式,其 中每个子话题对应一个用户意图。对于一个查询,获取相关子话题列表的方法有很多,包 括:用查询的分类信息作为子话题,巧用搜索引擎获取相关子话题,分析结果文档的短语或 词组生成子话题,或者联合多个外部资源生成组合子话题等。例如,用Google的查询推荐和 相关查询来代表查询的用户意图;从比较相关的检索文档中抽取单词和短语生成查询意 图。从四类不同类型的数据中挖掘子话题。

在搜索结果多样化方向的国际竞赛或评测任务中(如TRECWebTrack的 Diversitytask,和NTCIR的Intent/IMinetask),查询的子话题由标注人员的主观标注确 定,视为真实的用户意图。多样化算法中使用的子话题应该尽可能地贴近真实用户意图,方 能得到让真实用户满意的多样化结果。然而,由于多样化算法中的子话题是根据查询自动 地生成的,很难完美地和真实的用户意图相匹配。而目前多样化方法中主要采用列表形式 的子话题,很难找到合适粒度的子话题能够完美匹配真实的用户意图。而真实的用户意图 本身则是隐含逻辑的层次结构。

因此,如何解决上述问题成为本领域技术人员亟需解决的技术问题。

发明内容

针对背景技术中存在的问题,本发明的目的在于提供一种基于层次结构子话题的 搜索结果多样化排序方法,该方法定义了查询的层次结构子话题,以及多层子话题和查询、 文档间的相关性推算方法,基于该层次结构子话题的搜索结果多样化算法,能够灵活地利 用不同粒度的子话题,更准确地匹配真实用户意图,从而提高搜索结果的多样性。

本发明的目的是通过以下技术方案来实现的:

一种基于层次结构子话题的搜索结果多样化排序方法,所述方法包括如下步骤:

1)定义查询词的层次结构树状子话题的表示方法;

2)对层次结构子话题和查询、文档的相关性进行估算;

3)建立基于查询词的层次结构子话题的搜索结果多样化模型;

其中,所述步骤3)通过两种排序方法的任一种实现:

a)排序方法一:根据层次结构话题新颖性模型对文档进行多样化排序;

b)排序方法二:根据层次结构话题比例模型对文档进行多样化排序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510888616.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top