[发明专利]一种面向微博实时搜索的自适应索引方法有效
| 申请号: | 201510242074.0 | 申请日: | 2015-05-13 |
| 公开(公告)号: | CN104834726B | 公开(公告)日: | 2017-12-08 |
| 发明(设计)人: | 赵峰;金海;柳俊;李少峰 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 华中科技大学专利中心42201 | 代理人: | 赵伟 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 实时 搜索 自适应 索引 方法 | ||
技术领域
本发明属于信息技术领域,更具体地,涉及一种面向微博实时搜索的自适应索引方法。
背景技术
微博实时搜索对微博信息进行即时而快速的搜索,相比传统网页搜索,微博实时搜索需要索引方法具备低延时、高插入率、实时数据可用性以及高查询效率的特点;现有的实时索引方法主要包括Earlybird、推文索引(Tweet Index,TI)和日志结构倒排索引(Log-Structured Inverted Indices,LSII)。Earlybird采取了一种直接将单个倒排索引结构切分成多段较小的独立倒排索引结构的方法;TI采取了一种只索引热门微博的部分索引方法;LSII提出了一种日志结构的倒排索引结构。相比Earlybird和TI,LSII解决了索引碎片和查询精度低下的问题;但由于缺乏合适的索引合并策略,LSII带来了较大的合并开销,造成了查询性能的下降。
目前应用在微博实时索引结构中的合并策略主要包括周期合并、直接合并和懒惰合并。TI采取周期合并来提高微博更新的效率,LSII采取直接合并策略维持适量的倒排索引数量,Mercury采取懒惰合并策略来回收空的索引。由于微博系统的运行环境时刻在变化(主要体现在微博系统每秒接收到的新微博数量和查询请求的变化),对于给定的索引结构,高的查询请求到达速率会带来系统查询资源的匮乏,导致较大的查询请求排队延迟;相反,低的查询请求到达速率会导致查询资源处于空闲状态,造成查询资源利用率低下的问题。为了提高动态环境下微博系统的查询性能和稳定性,索引结构需要自适应的策略来合理利用系统的查询资源。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种面向微博实时搜索的自适应索引方法,其目的在于减少索引合并开销并合理利用系统的查询资源,由此解决现有索引方法查询效率不高、无法适应外部动态环境的问题。
为实现上述目的,按照本发明的一个方面,提供了一种面向微博实时搜索的自适应索引方法,具体如下:
(1)判断是否已创建第0层倒排索引i0,若是,则进入步骤(3);若否,则创建一个空间大小为π0的第0层倒排索引i0,进入步骤(2);
(2)将新的微博索引到第0层倒排索引i0;
(3)判断第0层倒排索引i0里的微博数量是否达到π0,若是,则生成第0层倒排索引i0的副本即第0层副本i0`,并将第0层倒排索引i0清空,将上述新的微博插入到清空后的第0层倒排索引i0,进入步骤(4);若否,则进入步骤(2);
(4)判断是否已创建第k层索引包jk,若是,则进入步骤(6);若否,则创建一个空间大小为rk×π0的第k层索引包jk,进入步骤(5);其中,索引包为一种能存放多个倒排索引的数据结构;其中,k=1…m,m是索引结构的总层数;其中,r是指索引包可容纳的倒排索引数量的最大值,r=2~20。
(5)将第k-1层副本ik-1`移动到第k层索引包jk;
(6)判断第k层索引包jk索引里的微博数量是否达到rk×π0,若是,进入步骤(7);若否,则进入步骤(5);
(7)批量合并第k层索引包jk中的所有倒排索引,获取第k层副本ik`,进入步骤(8);
(8)将第k层索引包jk清空,并将第k层副本ik`移动到清空后的第k层索引包jk,进入步骤(9);
(9)k=k+1,判断加1后的k是否大于p,若是,则进入步骤(10);若否,则进入步骤(4);其中,p是指索引结构可容纳的索引包数量的最大值;
(10)判断是否已创建第k层倒排索引ik,若是,则进入步骤(11);若否,则将第k层倒排索引ik的指针指向第k-1层副本ik-1`,并设置第k层倒排索引ik的空间大小为rk×π0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510242074.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种单马达的电动镜面控制器及其驱动电路
- 下一篇:一种踏板组件





