[发明专利]一种基于关键词提取热点话题的方法有效
申请号: | 201710304817.1 | 申请日: | 2017-05-03 |
公开(公告)号: | CN107122478B | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 陆川;孙健;杨伟 | 申请(专利权)人: | 成都云数未来信息科学有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 610000 四川省成都市双流*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键词 提取 热点话题 方法 | ||
本发明公开了一种基于关键词提取热点话题的方法,将海量的数据统一格式并分词处理形成语料库,再对语料库并行化分块处理,得到每块的候选词集,然后对每块候选词集进行TFIDF赋权和去重处理,得到基准文档,再将基准文本与块中其他文本作余弦相似度处理,提取出与基准文本相似的文本,对相似文本中的候选关键词集通过词频降序排列找到这些相似文本的若干个热点主题,最后从若干个热点主题中提取出热点话题,更能代表这些海量数据的主要的观点。
技术领域
本发明属于网络舆情监测技术领域,更为具体地讲,涉及一种基于关键词提取热点话题的方法。
背景技术
随着互联网技术的蓬勃发展和相关应用的迅速普及,每个人不再仅仅是信息的消费者,更是信息的生产者,网民可以借助于电脑,手机等网络终端,随时随地在微博、社交、新闻、博客等各种网站上进行信息获取或发布,还有许多已有的商业门户网站都会为用户收集并提供丰富的新闻报道给用户,比如新浪、网易等.然而,报道内容一般由新闻编辑人工编写,带有一定的主观性,而且新闻数量非常庞大.如果参考多个门户网站的报道,很难对关心的新闻事件有一个清晰准确的认识.在社交媒体平台上,新闻话题多来源于事件现场的用户实时发布的消息,或者具有较高影响力用户的及时推送,经由多人进行评论和转发分享,相互交换意见,使得该新闻事件得以广泛迅速地传播开来,其发展动态也易于被人们追踪.例如微博,用户在该平台上发布的丰富而又全面的内容不仅创造了人们在社交网络中争相讨论的一个又一个热门话题,更是吸引了众多传统媒体利用微博来对相关事件做进一步的跟进。
正是由于这种互联网数据爆炸性的增长,以及其具有快餐化、碎片化等特点,导致信息过载、缺乏完整性问题愈发明显,快节奏的人们对于时刻涌现的众多新信息感到无所适从,但人们又迫切希望能够及时快速的了解社会上正在讨论的热点话题,热点话题的特点是时效性、多样性、概括性等等。
如何高效的在互联网中挖掘出有效的信息,网络监控中面临着许多艰巨的课题,例如,用户对于网络监控的智能化越来越高,从少量数据文本中得到热点不符合现代的网络监控;网络信息的多样化,在数据挖掘的过程中,我们面临的不再是简单少量的文本信息……在这种大背景下,热点话题检测技术作为能够自动发现和组织网络信息的语义关联、帮助用户快速获取网络信息全貌的数据挖掘技术,近年来引起了学术界和工业界的强烈关注。
作为信息处理领域中备受关注的研究热点,舆情话题检测与追踪技术在发展初期将新闻媒体信息流作为研究对象,通过监控新闻描述的话题,发现新的用户感兴趣的信息并追踪下去,最后将涉及某个话题的新闻组织起来以某种方式呈现给用户。而后由于计算机技术的飞速发展和互联网的广泛普及,社交媒体逐渐流行起来,于是研究人员将目光投向了彼时具有代表性的博客、邮件、社区和论坛等社交媒体形式。不同于新闻报道的语言规范性和内容有效性,社交媒体文本内容随意性较强,且充斥着大量的无价值信息,文档之间的关联性也较低。面对不断涌现的海量的互联网信息,简单的人工监管难度很大,传统的热点话题发现技术,都是针对少量的文本且文本内容少,热点检测的手段一般是通过从已知的话题中搜索,如果有就加入到原热点话题中,以提高它的热度,以及后续的追踪,但是原来的热点话题中不存在这个话题,我们就要创建一个新的热点话题,添加到热点话题中,以便后来的加入,这就是追踪。但是这种检测与追踪技术,本身是针对文档数目少,如果是面对海量的互联网信息,采用传统话题检测技术,很难满足如此大量而且持续性的信息流中检测热点话题的实际应用需要,即使能够检测,也是时间复杂度非常高,延时非常明显,而用户的精力却十分有限,不可能通过阅读所有文档来获取相关话题的有用知识.因此,用户体验非常糟糕,而用户又往往希望能及时快速的了解目前网民正在讨论的事件或者话题,因此对热点话题的检测速度上有进一步的提升,不仅在时间上的提升,更是在数量的提升。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于关键词提取热点话题的方法,基于关键词提取热点话题,实现每日热点主题的发现和追踪。
为实现上述发明目的,本发明一种基于关键词提取热点话题的方法,其特征在于,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都云数未来信息科学有限公司,未经成都云数未来信息科学有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710304817.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种区块链存储系统
- 下一篇:一种基于深度学习的用户密码猜测系统