[发明专利]综合语义和时效性意图对检索结果进行多样化的方法有效
| 申请号: | 201410123319.3 | 申请日: | 2014-03-28 |
| 公开(公告)号: | CN103870592B | 公开(公告)日: | 2017-04-12 |
| 发明(设计)人: | 陈竹敏;任鹏杰;马军;吴凯;隋雪芹;宋晓萌 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
| 地址: | 250061 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 综合 语义 时效性 意图 检索 结果 进行 多样化 方法 | ||
技术领域
本发明涉及信息检索领域,具体地说是一种综合语义和时效性意图对检索结果进行多样化的方法。
背景技术
随着大数据时代的到来,信息量越来越丰富,信息需求越来越复杂,信息检索系统如何利用有限的空间满足用户的不同信息需求变得异常重要。而结果的多样化作为一种最有效的解决方案近来受到企业界和学术界的普遍关注。
之所以要对信息检索结果进行多样化的主要原因包括:
(1)大多查询存在歧义性、模糊性和多义性。一个典型的代表查询是“苹果”。它既可以代表一种水果,也可以代表苹果公司或者其电子产品。对这种查询用户希望返回多样化的结果,因为搜索引擎不知道用户的具体需求。
(2)用户的信息需求具有不确定性、浏览性,并且因人而异。也就是说即使是同一个查询,不同用户的信息需求也是不同的。比如同样是查询“猪流感”,医务人员可能更关注猪流感的病理、病因等专业方面的信息,而普通大众则可能更关注猪流感的传播等新闻信息。
(3)Web是一个动态的信息空间,其中的内容不断变化。用户查询也是时间敏感的,即用户的查询意图随时间而变化。比如同样是查询“地震”,在地震发生不久时用户的查询意图与地震过后的查询意图存在很大区别。
(4)大数据时代造成了大量可用信息的存在,因此需要信息检索系统在提供检索结果时需要尽量避免冗余信息,并保证新颖性和多样性。
任何事物都不是一成不变的,互联网更是如此,网络信息日新月异。因此,对于信息检索系统来说,时效性是一个很重要的因素。然而,传统的检索结果多样化方法只是考虑查询的语义意图进行多样化,比如经典的MMR模型、xQuAD模型、IA-Select模型等,这样,难以捕捉查询的动态性,不能有效地利用查询的时效性特征来改善信息检索系统的性能。
发明内容
本发明的目的就是为了解决上述问题,提供了一种综合语义和时效性意图对检索结果进行多样化的方法,该方法可以有效地建模查询的动态性,通过考虑查询的时效性特征来提升信息检索系统的性能,改善用户的搜索体验,提高用户满意度。
为了实现上述目的,本发明采用如下技术方案:
一种综合语义和时效性意图对检索结果进行多样化的方法,步骤如下:
步骤(1):接收用户的查询;
步骤(2):采用查询时效性分类算法判断查询属于
没有时间意图的查询QoT(Query without Time intent)、
仅有一个查询量突起的查询OQ(One spike Query)、
有多个查询量突起且突起之间没有周期性的查询AMQ(Aperiodic Multi-spike Query)和
有多个查询量突起且突起之间有周期性的查询PMQ(Periodic Multi-spike Query)
中的哪一类,若该查询属于QoT类就进入步骤(3-1);若该查询属于OQ、AMQ、PMQ三类中的一类,就进入步骤(3-2);
步骤(3-1):仅考虑语义意图对检索结果进行多样化;
步骤(3-2):计算P(t|q)并同时考虑语义意图和时效性意图对检索结果进行多样化;
步骤(4):将多样化的检索结果输出。
所述步骤(3-1)的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410123319.3/2.html,转载请声明来源钻瓜专利网。





