[发明专利]一种垂直领域热门微博的提取方法及其装置有效
| 申请号: | 201310581666.6 | 申请日: | 2013-11-19 |
| 公开(公告)号: | CN103580997B | 公开(公告)日: | 2017-09-29 |
| 发明(设计)人: | 李威 | 申请(专利权)人: | 湖南蚁坊软件有限公司 |
| 主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06;G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 410000 湖南省长沙市高新开发*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 垂直 领域 热门 提取 方法 及其 装置 | ||
技术领域
本发明属于网络技术领域,具体涉及一种垂直领域热门微博的提取方法及其装置。
背景技术
随着互联网技术的进步与发展,微博已成为人们获取信息、交流信息的重要渠道,大量网民在微博中发表自己的意见和爆料各类新闻,每天都有成千上万的话题从微博上产生,如何更快速地从微博信息中获取微博热点将对了解社会发展形势、掌握舆论动态具有指导性作用。
目前存在的微博热点挖掘方法是通过对特定时间段内全局网络微博话题下的微博数量进行对比,通过数量排序得到全局网络内的热点微博,然而,在现实生活中,我们一般对全局微博的很多热点都不感兴趣,而是比较关注某个特定领域或者地区的热门微博,比如我们工作所在地区,我们家乡所在地区的热门微博,或者我们所在行业领域的热门微博,然而,当前存在的微博热点挖掘方法是难以满足该等需求。
发明内容
针对现有技术存在的问题,本发明旨在提供一种垂直领域热门微博的提取方法,它首先根据自己定义的标签将微博信息进行标签化,根据标签将标签化的微博信息分成各个垂直领域,然后在垂直领域内对提取热门微博,只需更新定义标签可以满足不同区域和领域网络内的热门微博的需求,因而,可以适应使用者差异化的需求。
本发明提供的一种垂直领域热门微博的提取方法,其包括以下步骤:
步骤1、实时采集微博信息:通过某一门户微博指定的开放接口实时采集该门户的微博信息,其中,微博信息主要包括微博内容和转发次数;
步骤2、标签化微博信息:定义标签A={a1,a2,…,an},B={b1,b2,…,bn},…,M={m1,m2,…mn},将每一微博信息与每一标签进行求交集,如果交集不为空集即微博信息中包含标签的元素,则,为该微博信息标上该标签;
步骤3、根据标签将标签化的微博信息进行分流:根据标签将标签化的微博信息分成多个垂直领域,每个垂直领域由含有相同标签的多个微博信息集合而成;
步骤4、找出每一个垂直领域内的热门词组:周期性地对每一个垂直领域内的微博信息进行分析提取热门词组;
步骤5、根据热门词组和转发次数找到热门微博:搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博;
步骤6、过滤热门微博中含广告的微博:采用广告过滤模块去除热门微博中含广告的热门微博。
本发明又提供的一种垂直领域热门微博的提取装置,其包括微博信息采集模块、微博信息标签化模块、微博信息分流模块、热门词组提取模块、热门微博提取模块及广告过滤模块,其中,
所述微博信息采集模块实时采集某一门户的微博信息,其中,微博信息包括微博内容和转发次数;
所述微博信息标签化模块包括标自定义的标签数据库及交集求解模块,所述交集求解模块将微博信息的微博内容与标签数据库的标签进行求交,根据所得的交集包括的标签对微博信息进行标签化;
所述微博信息分流模块根据标签将标签化的微博信息分成多个垂直领域,将含有相同标签的多个微博信息集合成同一垂直领域;
所述热门词组提取模块提取每一垂直领域内的热门词组;
所述热门微博提取模块根据热门词组和转发次数找到相应的热门微博;
所述广告过滤模块用以滤除热门微博中的含有广告宣传词组的热门微博。
本发明公开的一种垂直领域热门微博的提取方法,具有以下有益效果:
本发明提供的一种垂直领域热门微博的提取方法,首先根据自己定义的标签将微博信息进行标签化,根据标签将标签化的微博信息分成各个垂直领域,然后在垂直领域内对提取热门微博,只需更新定义标签可以满足不同区域和领域网络内的热门微博的需求,因而,可以适应使用者差异化的需求。
附图说明
图1为本发明提供的一种垂直领域热门微博的提取方法的流程图;
图2为本发明提供的一种垂直领域热门微博的提取装置的结构框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南蚁坊软件有限公司,未经湖南蚁坊软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310581666.6/2.html,转载请声明来源钻瓜专利网。





