[发明专利]一种基于知识库的查询分面生成方法有效
| 申请号: | 201510888652.8 | 申请日: | 2015-12-07 |
| 公开(公告)号: | CN105550226B | 公开(公告)日: | 2018-09-04 |
| 发明(设计)人: | 窦志成;文继荣;江政宝 | 申请(专利权)人: | 中国人民大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
| 地址: | 100872 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于知识库的查询分面生成方法,该方法包括如下步骤:1)对于给定查询q,从搜索引擎中获取前T个检索结果,组成查询结果集合D;2)基于QDMiner算法获取一系列初始查询分面f,一系列所述初始查询分面f组成集合F;3)对每一个所述初始查询分面f进行扩展;4)对扩展后的所述初始查询分面f利用检索文档进行过滤,以保证扩展结果的准确率;利用扩展之后的初始查询分面f生成最终的查询分面。本发明使用知识库生成查询分面,可以有效解决现有方法依赖于检索结果的局限性。通过利用知识库中高质量的信息对初始分面进行扩展,检索结果中没有出现或未被抽取的分面词项可以被准确定位,从而提高查询分面的准确性和覆盖率。 | ||
| 搜索关键词: | 一种 基于 知识库 查询 生成 方法 | ||
【主权项】:
1.一种基于知识库的查询分面生成方法,其特征在于,所述方法包括如下步骤:1)对于给定查询q,从搜索引擎中获取前T个检索结果,组成查询结果集合D;2)基于QDMiner算法获取一系列初始查询分面f,一系列所述初始查询分面f组成集合F;3)对每一个所述初始查询分面f进行扩展;4)对扩展后的所述初始查询分面f利用检索文档进行过滤,以保证扩展结果的准确率;利用扩展之后的初始查询分面f生成最终的查询分面;所述步骤2)中基于QDMiner算法获取一系列初始查询分面f的方法具体为:a.列表抽取:使用文本、HTML标签、重复区域多个模式,从所述查询结果集合D中抽取原始列表;b.列表赋权:基于tf‑idf思想,对每个所述原始列表的重要性做出评估;c.列表聚类:使用WQT方法将相似的列表聚在一起形成查询分面;d.查询分面和词项排序:计算不同查询分面及分面内词项的重要性,排序并输出最终结果,即获得一系列所述初始查询分面f;所述步骤3)中对每一个所述初始查询分面f进行扩展的方法具体为:首先将搜索引擎的查询分为两种:实体级查询和非实体级查询;对于实体级查询,获得查询对应的Freebase中的实体,并获取其属性;如果原分面和某一属性的重合度很高,则使用该属性作为原分面的扩展;如果找不到这样的属性,则转到非实体级查询;对于非实体级查询,基于tf‑idf的思想找到Freebase中包含原分面的最小的类型,并利用Freebase找到原分面中不同词项共有的、与查询相关的属性,用这样的属性对类型做进一步的限制,返回被限制的类型所包含的实体作为原分面的扩展。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510888652.8/,转载请声明来源钻瓜专利网。
- 上一篇:多重策略的信息过滤系统及方法
- 下一篇:快速读写安卓系统媒体库数据的方法





