[发明专利]一种基于知识库的查询分面生成方法有效

专利信息
申请号: 201510888652.8 申请日: 2015-12-07
公开(公告)号: CN105550226B 公开(公告)日: 2018-09-04
发明(设计)人: 窦志成;文继荣;江政宝 申请(专利权)人: 中国人民大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100872 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识库 查询 生成 方法
【说明书】:

发明公开了一种基于知识库的查询分面生成方法,该方法包括如下步骤:1)对于给定查询q,从搜索引擎中获取前T个检索结果,组成查询结果集合D;2)基于QDMiner算法获取一系列初始查询分面f,一系列所述初始查询分面f组成集合F;3)对每一个所述初始查询分面f进行扩展;4)对扩展后的所述初始查询分面f利用检索文档进行过滤,以保证扩展结果的准确率;利用扩展之后的初始查询分面f生成最终的查询分面。本发明使用知识库生成查询分面,可以有效解决现有方法依赖于检索结果的局限性。通过利用知识库中高质量的信息对初始分面进行扩展,检索结果中没有出现或未被抽取的分面词项可以被准确定位,从而提高查询分面的准确性和覆盖率。

技术领域

本发明涉及一种基于知识库的查询分面生成方法。

背景技术

据中国互联网络信息中心(CNNIC)发布的《2013年中国网民搜索行为研究报告》显示,截至2013年6月底,中国搜索引擎网民规模为4.70亿,中国手机搜索网民数达3.24亿。在过去半年中使用过综合搜索引擎的网民比例达98%,可见,在互联网时代,搜索引擎是人们进入网络的主要入口,是获取网络信息的主要来源。

目前综合搜索引擎主要以相关文档列表的形式展示搜索结果,并按照文档的相关性由高到低排序,对于简单的、导航性的搜素,如搜索“淘宝官网”,这种方式能够满足需求,但对于复杂的、信息丰富的、探索式的搜索,这种展现形式就显得过于单薄,用户需要在返回的成千上万的结果中寻找、总结所需的信息,效率底下。某些情况下,用户的搜索意图是模糊的,很难准确地通过一两个词表达,例如搜索相关领域的知识等;另外,用户的搜索是可能是探索式的,需要搜索引擎分门别类地组织好相关内容,方便用户一步一步找到自己想要的信息,例如购物网站中的搜索会对商品的品牌、样式、大小等给出对应的限制。对于前者,目前的主要做法是搜索建议,用户在搜索框输入内容时,搜索引擎会根据以往积累的搜索日志提示用户可能的搜索语句;对于后一种情况,目前应用的范围主要是商品、酒店等垂直领域。对于上面问题,查询分面是一个有效的解决途径。查询分面可以看作是对查询从不同角度做出的总结和归纳,例如查询“王菲”的分面有:她的著名歌曲、专辑、好友、获得的奖项等。查询分面是对用户查询意图的扩展,是对潜在的查询信息的总结,不仅可以方便用户明确搜索意图,还能提示用户相关内容,以便用户进行探索式搜索。

目前,查询分面的挖掘方法主要依赖于搜索引擎返回的文档集合,利用人工定义的多种并列模式,抽取文档中并列出现的词项列表,并通过聚类、排序等过程,生成最终查询分面。在此基础上,另外一种方案是利用监督学习,分别训练两个模型,用于判断一个词项是否属于查询分面以及两个词项是否属于同一个查询分面。以上两种方法虽然取得了不错的效果,但是结果的精确性和 准确性会受到文档质量的影响。首先,如果检索结果文档集中不包含某些分面或词项,现有方法无从抽取;其次,即便检索结果中包含相应分面,由于并非以列表形式展现,现有的抽取模式并不能准确识别;最后,抽取的并列列表可能包含杂质项,现有做法并不能高效地过滤掉所有杂质。

因此,如何解决上述问题成为本领域技术人员亟需解决的技术问题。

发明内容

针对背景技术中存在的问题,本发明的目的在于提供一种基于知识库的查询分面生成方法,本申请使用知识库生成查询分面,可以有效解决现有方法依赖于检索结果的局限性。通过利用知识库中高质量的信息对初始分面进行扩展,检索结果中没有出现或未被抽取的分面词项可以被准确定位,从而提高查询分面的准确性和覆盖率。

本发明的目的是通过以下技术方案来实现的:

一种基于知识库的查询分面生成方法,所述方法包括如下步骤:

1)对于给定查询q,从搜索引擎中获取前T个检索结果,组成查询结果集合D;

2)基于QDMiner算法获取一系列初始查询分面f,一系列所述初始查询分面f组成集合F;

3)对每一个所述初始查询分面f进行扩展;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510888652.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top