[发明专利]一种建立微博索引的方法及装置有效
| 申请号: | 201410272487.9 | 申请日: | 2014-06-18 |
| 公开(公告)号: | CN104021205B | 公开(公告)日: | 2017-04-19 |
| 发明(设计)人: | 杨树强;陈志坤;金松昌;尹洪;贾焰;韩伟红;周斌;李爱平 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
| 地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 建立 索引 方法 装置 | ||
1.一种建立微博索引的方法,其特征在于,所述方法应用于分布式存储网络中的第一节点,包括:
从微博系统中实时获取用户发布的博文;
当所述博文是对其他博文的转发和/或回复时,将所述博文的主题确定为所述博文所回复和/或所转发的原始博文的主题;
当所述博文与其他博文无转发和/或回复关系时,使用Twitter-LDA模型确定所述博文的主题;
在与所述主题相对应的索引结构的底层建立所述博文的索引;
判断所述索引结构的底层的索引数是否大于或等于预设阈值;
如果是,则将已存储在所述索引结构的底层的索引数据迁移至分布式存储网络中的第二节点。
2.如权利要求1所述的方法,其特征在于,所述从微博系统中实时获取用户发布的博文之后,还包括:
确定发布所述博文的用户;
判断所述用户是否为恶意用户,如果否,才执行确定所述博文的主题的步骤。
3.如权利要求1所述的方法,其特征在于,建立所述索引之后,还包括:
获取所述微博系统中的主节点下发的搜索任务;所述搜索任务是由所述主节点根据用户在搜索操作中给定的搜索关键字对应的主题所分配的;
在所述索引结构的底层搜索与所述关键字相匹配的索引,得到搜索结果;
将所述搜索结果发送至所述主节点,以便所述主节点综合所述第一节点的搜索结果和所述第二节点的搜索结果得到所述主题的搜索结果,综合所有主题的搜索结果,得到最终搜索结果。
4.如权利要求3所述的方法,其特征在于,所述综合所有主题的搜索结果之前还包括:对所述所有主题的搜索结果进行排序。
5.一种建立微博索引的装置,其特征在于,所述装置应用于分布式存储网络中的第一节点,包括:
博文获取模块:用于从微博系统中实时获取用户发布的博文;
主题确定模块:用于当所述博文是对其他博文的转发和/或回复时,将所述博文的主题确定为所述博文所回复和/或所转发的原始博文的主题,当所述博文与其他博文无转发和/或回复关系时,使用Twitter-LDA模型确定所述博文的主题;
索引建立模块:用于在与所述主题相对应的索引结构的底层建立所述博文的索引;
阈值判断模块:用于判断所述索引结构的底层的索引数是否大于或等于预设阈值,如果是,触发索引迁移模块;
索引迁移模块:用于将已存储在所述索引结构的底层的索引数据迁移至分布式存储网络中的第二节点。
6.如权利要求5所述的装置,其特征在于,所述博文获取模块从微博系统中实时获取用户发布的博文之后还包括:
用户确定模块,用于确定发布所述博文的用户;
用户判断模块,用于判断所述用户是否为恶意用户,如果否,触发主题确定模块。
7.如权利要求5所述的装置,其特征在于,所述索引建立模块建立所述索引之后还包括:
任务获取模块,用于获取所述微博系统中的主节点下发的搜索任务;所述搜索任务是由所述主节点根据用户在搜索操作中给定的搜索关键字对应的主题所分配的;
搜索执行模块,用于在所述索引结构的底层搜索与所述关键字相匹配的索引,得到搜索结果;
结果发送模块,用于将所述搜索结果发送至所述主节点,以便所述主节点综合所述第一节点和所述第二节点的搜索结果得到所述主题的搜索结果,综合所有主题的搜索结果,得到最终搜索结果。
8.如权利要求7所述的装置,其特征在于,所述结果发送模块综合所述所有主题的搜索结果之前还包括:
排序模块,用于对所述所有主题的搜索结果进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410272487.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分散荧光染料、制备及应用
- 下一篇:多功能智能电暖器





