[发明专利]一种建立微博索引的方法及装置有效
| 申请号: | 201410272487.9 | 申请日: | 2014-06-18 |
| 公开(公告)号: | CN104021205B | 公开(公告)日: | 2017-04-19 |
| 发明(设计)人: | 杨树强;陈志坤;金松昌;尹洪;贾焰;韩伟红;周斌;李爱平 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
| 地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 建立 索引 方法 装置 | ||
技术领域
本发明涉及数据索引技术领域,更具体地说,涉及一种建立微博索引的方法及装置。
背景技术
微博,是微型博客的简称,是一种基于用户关系分享、传播以及获取信息的平台。通过微博系统的实时搜索服务,用户可以快速得到新鲜的第一手草根信息,第一时间了解国内外事件。而实时搜索服务实现过程中,为了能够快速的获取实时微博的信息,需要对微博系统中的博文建立索引。
目前,微博系统中建立索引的过程是这样的:只要有新博文进入微博系统,就为该博文建立一条索引,所有博文的索引以简单集合形式存在。
发明人经研究发现,微博系统中实时产生的博文数量非常庞大,逐一为这些博文建立索引相当耗时,根本无法让最新的博文在其发表之后的几秒之内就变为可搜索;而且,由于微博系统中本身的博文数据量很大,故博文索引的数据量也不可小觑,如此庞大的数据对存储设备来说是极大的负荷,存储设备的读写速度会受影响,为新博文建立索引时速度会很慢,无法满足建立博文索引的实时性。
发明内容
有鉴于此,本发明提供一种建立微博索引的方法及装置,能够快速的对最新博文建立索引,使最新博文在其发表后短时间内变为可搜索。
为了实现上述目的,现提出的方案如下:
一种建立微博索引的方法,所述方法应用于分布式存储网络中的第一节点,包括:
从微博系统中实时获取用户发布的博文;
当所述博文是对其他博文的转发和/或回复时,将所述博文的主题确定为所述博文所回复和/或所转发的原始博文的主题;
当所述博文与其他博文无转发和/或回复关系时,使用Twitter-LDA模型确定所述博文的主题;
在与所述主题相对应的索引结构的底层建立所述博文的索引;
判断所述索引结构的底层的索引数是否大于或等于预设阈值;
如果是,则将已存储在所述索引结构的底层的索引数据迁移至分布式存储网络中的第二节点。
上述方法,所述从微博系统中实时获取用户发布的博文之后,还包括:
确定发布所述博文的用户;
判断所述用户是否为恶意用户,如果否,才执行确定所述博文的主题的步骤。
上述方法,建立所述索引之后,还包括:
获取所述微博系统中的主节点下发的搜索任务;所述搜索任务是由所述主节点根据用户在搜索操作中给定的搜索关键字对应的主题所分配的;
在所述索引结构的底层搜索与所述关键字相匹配的索引,得到搜索结果;
将所述搜索结果发送至所述主节点,以便所述主节点综合所述第一节点的搜索结果和所述第二节点的搜索结果得到所述主题的搜索结果,综合所有主题的搜索结果,得到最终搜索结果。
上述方法,优选地,所述综合所有主题的搜索结果之前还包括:对所述所有主题的排序结果进行排序。
一种建立微博索引的装置,所述装置应用于分布式存储网络中的第一节点,包括:
博文获取模块:用于从微博系统中实时获取用户发布的博文;
主题确定模块:用于当所述博文是对其他博文的转发和/或回复时,将所述博文的主题确定为所述博文所回复和/或所转发的原始博文的主题,当所述博文与其他博文无转发和/或回复关系时,使用Twitter-LDA模型确定所述博文的主题;
索引建立模块:用于在与所述主题相对应的索引结构的底层建立所述博文的索引;
阈值判断模块:用于判断所述索引结构的底层的索引数是否大于或等于预设阈值,如果是,触发索引迁移模块;
索引迁移模块:用于将已存储在所述索引结构的底层的索引数据迁移至分布式存储网络中的第二节点。
上述装置,优选地,所述博文获取模块从微博系统中实时获取用户发布的博文之后还包括:
用户确定模块,用于确定发布所述博文的用户;
用户判断模块,用于判断所述用户是否为恶意用户,如果否,触发主题确定模块。
上述装置,优选地,所述索引建立模块建立所述索引之后还包括:
任务获取模块,用于获取所述微博系统中的主节点下发的搜索任务;所述搜索任务是由所述主节点根据用户在搜索操作中给定的搜索关键字对应的主题所分配的;
搜索执行模块,用于在所述索引结构的底层搜索与所述关键字相匹配的索引,得到搜索结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410272487.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分散荧光染料、制备及应用
- 下一篇:多功能智能电暖器





