[发明专利]一种面向微博客的话题流行范围评估方法及系统有效
申请号: | 201310143846.6 | 申请日: | 2013-04-23 |
公开(公告)号: | CN103279483A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | 程学旗;李静远;李佳;王元卓;刘悦 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 博客 话题 流行 范围 评估 方法 系统 | ||
技术领域
本发明涉及互联网信息管理领域,尤其涉及一种面向微博客的话题流行范围评估方法及系统。
背景技术
互联网的快速发展,特别是Web2.0的快速发展,以Facebook、Myspace和Twitter为代表的社交网络服务成为了网络用户不可或缺的交流工具。这些社交网络服务为用户提供了包括好友的更新信息、感兴趣的人或群组的更新信息、最新热门时间的相关信息等功能,而这些功能正在逐渐改变着社交网络服务用户的信息获取方式。以国外的Twitter和国内的新浪微博为代表的微博客作为一种新型的社交网络与Facebook等依托传统社区产生的虚拟社区形式有很大的区别,这主要表现在关注机制、消息传播方式和消息实时性上。微博客不同于一般的社交网络,采用了单向关注的机制,使得任何用户都可以随意关注任何自己感兴趣的人;微博客的消息传播为广播式传播,用户发布的消息会被推送到该用户的所有听众;微博客是结合网络与移动终端等方式的新型网络服务,它对用户发送的内容进行了限制,更加强调消息的实时性。微博用户往往通过短小精悍的文本(一般不超过140个字)描述新闻、事件及表达自己的观点
微博客的这些有别于传统社交网络的特性使得微博客平台中实时更新的数据量非常庞大,在这种宏大的信息流中,用户对于信息获取有了更为迫切的需求。首先,由于微博客是短文本,话题发现不同于传统的博客等,如何有效的发现话题并且总结话题,将相应的微博客归类到有意义的话题上是具有挑战性的问题,话题之间的内在联系被忽视;其次,社交网络上面的用户是由隐含的社区所组成,目前社区发现尚没有对应的直接应用。另外,目前尚没有对于社区和话题之间关系的相关研究。这些不足之处也是具有研究价值的问题所在。
第一,微博客是一种话题驱动机制,话题的生命期包括出现、发展衍化和消退这几个阶段,由于微博客的实时性,用户希望在话题出现的阶段实时获取相关信息,从而能够更早的参与到自己感兴趣的话题的讨论中去。如何在微博客平台实现话题发现,尚未有明确的方案;微博客平台对用户发送的内容数量上做了限制,这是为了保证消息的实时性,但这在某种程度上也导致了用户无法在一条消息内做到完整的表述。这种信息不足也增加了突发话题发现的难度;
第二,微博客平台上发现话题之后,多个话题之间的关系的发现时一个被忽略的研究问题。如何发现话题之间关系,表达话题之间关系,以及利用话题之间的关系进行对未来话题流行度的评估都是具有挑战的问题。
第三,微博客平台上进行有意义社区的发现。目前对于社区的定义仍然具有争议,一种观点认为连接紧密的用户是一个社区,另一种观点认为具有相同兴趣和话题的用户是一个社区。社区和话题之间的关系,如何表示两者之间的关系,两者之间的关系是否有意义,如何利用这种关系评估话题的可能的流行范围等尚缺乏相关的研究。
发明内容
本发明的目的是融合话题和社区关系的消息流行范围评估,利用话题和社区,社区和社区之间,话题和话题之间的关系,可以实时有效的对新话题的可能的流行范围进行评估。
为实现上述目的,本发明提供一种面向微博客的话题流行范围评估方法,该方法包括:
步骤1,采集微博客平台的历史数据,根据所述历史数据提取多个话题,以及所述多个话题所对应的多个消息,并根据对所述多个消息进行合并操作获得多个合并消息,然后将发布或者转发同一个合并消息的用户构建一个社区,获得多个社区,基于所述多个社区的重合程度,进行话题的归类,提取同一类别中话题的特征;
步骤2,获取微博客平台的实时数据,根据所述实时数据提取新话题,以及所述新话题所对应的多个新消息,并根据对所述多个新消息进行合并操作获得多个新合并消息,将发布或者转发同一个新合并消息的用户构建一个新社区,获得多个新社区,基于所述多个新社区的重合程度,进行新话题的归类,提取同一类别中新话题的新特征;
步骤3,将所述特征与所述新特征进行匹配,获得目标话题,对所述目标话题的流行范围进行评估;
其中L1和L2分别为任意两条消息的长度,Lcom为任意两条消息的共同的词的数目,threshold介于[0.3,0.4]区间内。
所述步骤1和步骤2中进行合并操作后进行以下处理:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310143846.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:汽车驾驶训练器模拟变速箱
- 下一篇:节能减排信息的认证统计系统