[发明专利]一种基于知识库的查询分面生成方法有效

申请号：	201510888652.8	申请日：	2015-12-07
公开（公告）号：	CN105550226B	公开（公告）日：	2018-09-04
发明（设计）人：	窦志成;文继荣;江政宝	申请（专利权）人：	中国人民大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京中创阳光知识产权代理有限责任公司 11003	代理人：	尹振启
地址：	100872 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于知识库的查询分面生成方法，该方法包括如下步骤：1)对于给定查询q，从搜索引擎中获取前T个检索结果，组成查询结果集合D；2)基于QDMiner算法获取一系列初始查询分面f，一系列所述初始查询分面f组成集合F；3)对每一个所述初始查询分面f进行扩展；4)对扩展后的所述初始查询分面f利用检索文档进行过滤，以保证扩展结果的准确率；利用扩展之后的初始查询分面f生成最终的查询分面。本发明使用知识库生成查询分面，可以有效解决现有方法依赖于检索结果的局限性。通过利用知识库中高质量的信息对初始分面进行扩展，检索结果中没有出现或未被抽取的分面词项可以被准确定位，从而提高查询分面的准确性和覆盖率。
搜索关键词：	一种基于知识库查询生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于知识库的查询分面生成方法，其特征在于，所述方法包括如下步骤：1）对于给定查询q，从搜索引擎中获取前T个检索结果，组成查询结果集合D；2）基于QDMiner算法获取一系列初始查询分面f，一系列所述初始查询分面f组成集合F；3）对每一个所述初始查询分面f进行扩展；4）对扩展后的所述初始查询分面f利用检索文档进行过滤，以保证扩展结果的准确率；利用扩展之后的初始查询分面f生成最终的查询分面；所述步骤2）中基于QDMiner算法获取一系列初始查询分面f的方法具体为：a.列表抽取：使用文本、HTML标签、重复区域多个模式，从所述查询结果集合D中抽取原始列表；b.列表赋权：基于tf‑idf思想，对每个所述原始列表的重要性做出评估；c.列表聚类：使用WQT方法将相似的列表聚在一起形成查询分面；d.查询分面和词项排序：计算不同查询分面及分面内词项的重要性，排序并输出最终结果，即获得一系列所述初始查询分面f；所述步骤3）中对每一个所述初始查询分面f进行扩展的方法具体为：首先将搜索引擎的查询分为两种：实体级查询和非实体级查询；对于实体级查询，获得查询对应的Freebase中的实体，并获取其属性；如果原分面和某一属性的重合度很高，则使用该属性作为原分面的扩展；如果找不到这样的属性，则转到非实体级查询；对于非实体级查询，基于tf‑idf的思想找到Freebase中包含原分面的最小的类型，并利用Freebase找到原分面中不同词项共有的、与查询相关的属性，用这样的属性对类型做进一步的限制，返回被限制的类型所包含的实体作为原分面的扩展。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民大学，未经中国人民大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510888652.8/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于知识库的查询分面生成方法有效

专利文献下载