[发明专利]一种基于知识库的查询分面生成方法有效

专利信息
申请号: 201510888652.8 申请日: 2015-12-07
公开(公告)号: CN105550226B 公开(公告)日: 2018-09-04
发明(设计)人: 窦志成;文继荣;江政宝 申请(专利权)人: 中国人民大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京中创阳光知识产权代理有限责任公司 11003 代理人: 尹振启
地址: 100872 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识库 查询 生成 方法
【权利要求书】:

1.一种基于知识库的查询分面生成方法,其特征在于,所述方法包括如下步骤:

1)对于给定查询q,从搜索引擎中获取前T个检索结果,组成查询结果集合D;

2)基于QDMiner算法获取一系列初始查询分面f,一系列所述初始查询分面f组成集合F;

3)对每一个所述初始查询分面f进行扩展;

4)对扩展后的所述初始查询分面f利用检索文档进行过滤,以保证扩展结果的准确率;利用扩展之后的初始查询分面f生成最终的查询分面;

所述步骤2)中基于QDMiner算法获取一系列初始查询分面f的方法具体为:

a.列表抽取:使用文本、HTML标签、重复区域多个模式,从所述查询结果集合D中抽取原始列表;

b.列表赋权:基于tf-idf思想,对每个所述原始列表的重要性做出评估;

c.列表聚类:使用WQT方法将相似的列表聚在一起形成查询分面;

d.查询分面和词项排序:计算不同查询分面及分面内词项的重要性,排序并输出最终结果,即获得一系列所述初始查询分面f;

所述步骤3)中对每一个所述初始查询分面f进行扩展的方法具体为:首先将搜索引擎的查询分为两种:实体级查询和非实体级查询;对于实体级查询,获得查询对应的Freebase中的实体,并获取其属性;如果原分面和某一属性的重合度很高,则使用该属性作为原分面的扩展;如果找不到这样的属性,则转到非实体级查询;对于非实体级查询,基于tf-idf的思想找到Freebase中包含原分面的最小的类型,并利用Freebase找到原分面中不同词项共有的、与查询相关的属性,用这样的属性对类型做进一步的限制,返回被限制的类型所包含的实体作为原分面的扩展。

2.根据权利要求1所述的基于知识库的查询分面生成方法,其特征在于,所述获得查询对应的Freebase中的实体的具体方法为:使用Freebase的Search API搜索查询对应的实体,Search API使用实体的名字、同义词匹配查询字符串;然后对返回的实体进行过滤。

3.根据权利要求2所述的基于知识库的查询分面生成方法,其特征在于,所述对返回的实体进行过滤的方法为:对于Search API的查询Q,返回N个实体[E1,E2,…,EN],对于其中的实体E,对所有同义词和查询Q进行分词处理,计算E的所有的同义词和查询Q的最大公共词串占原串的比例,取所有同义词中比例的最大值作为E和Q的字符串相似度得分StrSim;如果该得分小于阈值RStrSim,则将E过滤掉;公式为:

其中Alias(E)是实体E的所有同义词集合,len表示词串的长度;阈值RStrSim随着查询Q的长度变化而变化,LCS(Q,a)计算查询Q和同义词a的最大公共词串长度:

其中pow(x,y)的是x的y次方。

4.根据权利要求1所述的基于知识库的查询分面生成方法,其特征在于,所述步骤3)中对每一个所述初始查询分面f进行扩展的方法具体为:首先找到包含原分面f的若干个类型,利用tf-idf的方法进行打分,选出得分最高的类型,用Search API找到分面f中所有词项对应的实体,在这些实体的所有属性中找到公共的、和原始查询相关的属性对类型加以限制,用返回限制后的类型的所有实体,作为对原分面的扩展。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510888652.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top