[发明专利]一种基于知识库的查询分面生成方法有效
| 申请号: | 201510888652.8 | 申请日: | 2015-12-07 |
| 公开(公告)号: | CN105550226B | 公开(公告)日: | 2018-09-04 |
| 发明(设计)人: | 窦志成;文继荣;江政宝 | 申请(专利权)人: | 中国人民大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
| 地址: | 100872 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识库 查询 生成 方法 | ||
1.一种基于知识库的查询分面生成方法,其特征在于,所述方法包括如下步骤:
1)对于给定查询q,从搜索引擎中获取前T个检索结果,组成查询结果集合D;
2)基于QDMiner算法获取一系列初始查询分面f,一系列所述初始查询分面f组成集合F;
3)对每一个所述初始查询分面f进行扩展;
4)对扩展后的所述初始查询分面f利用检索文档进行过滤,以保证扩展结果的准确率;利用扩展之后的初始查询分面f生成最终的查询分面;
所述步骤2)中基于QDMiner算法获取一系列初始查询分面f的方法具体为:
a.列表抽取:使用文本、HTML标签、重复区域多个模式,从所述查询结果集合D中抽取原始列表;
b.列表赋权:基于tf-idf思想,对每个所述原始列表的重要性做出评估;
c.列表聚类:使用WQT方法将相似的列表聚在一起形成查询分面;
d.查询分面和词项排序:计算不同查询分面及分面内词项的重要性,排序并输出最终结果,即获得一系列所述初始查询分面f;
所述步骤3)中对每一个所述初始查询分面f进行扩展的方法具体为:首先将搜索引擎的查询分为两种:实体级查询和非实体级查询;对于实体级查询,获得查询对应的Freebase中的实体,并获取其属性;如果原分面和某一属性的重合度很高,则使用该属性作为原分面的扩展;如果找不到这样的属性,则转到非实体级查询;对于非实体级查询,基于tf-idf的思想找到Freebase中包含原分面的最小的类型,并利用Freebase找到原分面中不同词项共有的、与查询相关的属性,用这样的属性对类型做进一步的限制,返回被限制的类型所包含的实体作为原分面的扩展。
2.根据权利要求1所述的基于知识库的查询分面生成方法,其特征在于,所述获得查询对应的Freebase中的实体的具体方法为:使用Freebase的Search API搜索查询对应的实体,Search API使用实体的名字、同义词匹配查询字符串;然后对返回的实体进行过滤。
3.根据权利要求2所述的基于知识库的查询分面生成方法,其特征在于,所述对返回的实体进行过滤的方法为:对于Search API的查询Q,返回N个实体[E1,E2,…,EN],对于其中的实体E,对所有同义词和查询Q进行分词处理,计算E的所有的同义词和查询Q的最大公共词串占原串的比例,取所有同义词中比例的最大值作为E和Q的字符串相似度得分StrSim;如果该得分小于阈值RStrSim,则将E过滤掉;公式为:
其中Alias(E)是实体E的所有同义词集合,len表示词串的长度;阈值RStrSim随着查询Q的长度变化而变化,LCS(Q,a)计算查询Q和同义词a的最大公共词串长度:
其中pow(x,y)的是x的y次方。
4.根据权利要求1所述的基于知识库的查询分面生成方法,其特征在于,所述步骤3)中对每一个所述初始查询分面f进行扩展的方法具体为:首先找到包含原分面f的若干个类型,利用tf-idf的方法进行打分,选出得分最高的类型,用Search API找到分面f中所有词项对应的实体,在这些实体的所有属性中找到公共的、和原始查询相关的属性对类型加以限制,用返回限制后的类型的所有实体,作为对原分面的扩展。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510888652.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多重策略的信息过滤系统及方法
- 下一篇:快速读写安卓系统媒体库数据的方法





