[发明专利]一种从微博中挖掘地震主题词的方法和装置有效
申请号: | 201710074352.5 | 申请日: | 2017-02-10 |
公开(公告)号: | CN106874448B | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 张晓东;陈欣意;邹再超;李林;苏伟;刘峻明;朱德海;孙瑞志 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 汤财宝 |
地址: | 100193 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 微博中 挖掘 地震 主题词 方法 装置 | ||
本发明提供一种从微博中挖掘地震主题词的方法和装置,方法包括:对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF‑PDF公式计算每个特征词在该特征词所在微博文本中的权重;基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。本发明提高了特征词流行度计算的准确度,增加了从地震微博文本数据中提取热门主题词的准确性。
技术领域
本发明涉及地震信息采集技术领域,更具体地,涉及一种从微博中挖掘地震主题词的方法和装置。
背景技术
在地震发生时,大量关于地震灾害的相关数据通过微博进行传播。如何从大量的微博文本中挖掘、提取出热门的地震主题信息,是一个需要解决的问题。而所获取的地震微博信息为中文短文本信息,且夹杂了大量新闻事实、重复转发等公众信息含量较低的信息,因此需要对于地震微博信息需要经过筛选整理,并且按照微博信息传播影响力的评价,提取出最能代表公众的主题词。
词频-比例文档频率,即Term Frequency Proportional Document Frequency(TF-PDF),是一种用于情报检索与文本挖掘的常用加权技术。对于热点话题的提取,代表热点话题的特征词汇应当在大量文档中频繁地出现。TF*PDF为在多个渠道多个文档中频繁出现的词汇分配更大的权重,反之亦然,是一种更适合于提取热点词汇的特征词权重计算方法。
而现有的微博主题词提取方法针对地震微博信息热门主题词的挖掘,仍存在一些问题:
1、忽略了地震新闻微博及其内容纯粹的转发的噪声影响;
2、缺乏对能准确表示出地震信息的数量词、日期时间表示词组和地理位置表示词组的挖掘提取;
3、缺乏每条微博文本潜在包含的活跃度、传播力、覆盖度的综合影响力对其包含的特征词影响的考虑;
上述几个问题都会对主题词流行热度的计算造成影响,使挖掘地震主题词的结果缺乏准确性和高效性。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的从微博中挖掘地震主题词的方法和装置。
根据本发明的一个方面,提供一种从微博中挖掘地震主题词的方法,包括:
S1、对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF-PDF公式计算每个特征词在该特征词所在微博文本中的权重;
S2、基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及
S3、基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。
根据本发明的另一个方面,提供一种从微博中挖掘地震主题词的装置,包括:
权重计算单元,用于对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF-PDF公式计算每个特征词在该特征词所在微博文本中的权重;
影响力计算单元,基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及
主题词获取单元,基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710074352.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据展示方法及装置
- 下一篇:一种应用程序的搜索方法及移动终端