[发明专利]一种从微博中挖掘地震主题词的方法和装置有效

专利信息
申请号: 201710074352.5 申请日: 2017-02-10
公开(公告)号: CN106874448B 公开(公告)日: 2020-03-06
发明(设计)人: 张晓东;陈欣意;邹再超;李林;苏伟;刘峻明;朱德海;孙瑞志 申请(专利权)人: 中国农业大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/33
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 汤财宝
地址: 100193 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 微博中 挖掘 地震 主题词 方法 装置
【权利要求书】:

1.一种从微博中挖掘地震主题词的方法,其特征在于,包括:

S1、对含有地震词汇的微博文本集中的每个微博文本提取特征词,基于TF-PDF公式计算每个特征词在该特征词所在微博文本中的权重;

S2、基于微博文本对应的活跃度、传播力以及覆盖度,获得每个微博文本的影响力;以及

S3、基于各微博文本的影响力以及微博文本中各特征词的权重,获得各特征词的流行度,按照各特征词的流行度大小进行降序排列,将排名靠前的特征词作为地震主题词;

其中,所述特征词包括名词、动词、量词、数词以及时间词;

所述步骤S1之前还包括:

采集一定时间范围内含有地震词汇的微博文本,构成微博文本集;以及

将含有特定词汇、特定话题或特定标题的微博文本、具有媒体认证的博主发送的微博文本和单纯转发的微博文本从所述微博文本集中剔除;

其中,所述特定词汇包括:中国地震台网、中国地震局、统计以及新华社快讯中的一种或多种;

特定话题包括:最新消息、地震直播以及地震最新动态中的一种或多种;

特定标题包括:地震快讯和快讯中的一种或多种。

2.如权利要求1所述的方法,其特征在于,所述步骤S1包括:

S1.1、对所述微博文本集中每个微博文本进行分词,并标注每个词汇的词性,基于不同正则表达式,对应提取每个微博文本中的不同词性的词汇组合;

S1.2、从步骤S1.2得到的所有词汇组合中提取名词、动词、量词、数词以及时间词,作为所述特征词;以及

S1.3、利用空间向量模型将微博文本表示为向量,所述特征词对应向量中的特征项,基于TF-PDF公式计算每个特征词在各微博文本中的权重;

其中,所述词性至少包括名词、数词、量词、位置词、震级、时间词、日期词以及动词。

3.如权利要求1所述的方法,其特征在于,所述步骤S2包括:

基于微博文本的博主在该时间范围内,每天平均发微博数和转发评论数之和,获得该微博文本对应的活跃度;

基于微博文本被转发评论和被评论数之和,获得该微博文本对应的传播力;

基于微博文本的博主的活跃粉丝数,获得该微博文本对应的覆盖度;

基于地震发生的时间,分别设置对应所述活跃度、传播力以及覆盖度的3个影响力参数;以及

基于微博文本对应的活跃度、传播力、覆盖度以及3个影响力参数,获得每个微博文本的影响力。

4.如权利要求1所述的方法,其特征在于,所述步骤S3中流行度的计算公式为:

其中,q(j,t)表示特征词j在时间范围t内的流行度,D表示时间范围t的微博文本集,p(d)为微博文本d的影响力,wd,j代表微博文本d中特征词j所具有的TF-PDF权重。

5.如权利要求2所述的方法,其特征在于,所述基于不同正则表达式,对应提取每个微博文本中的不同词性的词汇组合,包括:

基于第一正则表达式,提取微博文本中的名词、数词或量词的组合;

基于第二正则表达式,提取微博文本中的位置词、震级或时间词的组合;

基于第三正则表达式,提取微博文本中的动词、名词或量词的组合;以及

基于第四正则表达式,提取微博文本中的日期词或时间词的组合。

6.如权利要求2所述的方法,其特征在于,所述TF-PDF公式为:

wd,i=tfi*exp(dfi/D)

其中,wd,i表示特征词i在微博文本d中的权重,tfi表示特征词i在微博文本d中出现的频率,dfi则表示微博文本集中包含特征词i的微博文本数,D为微博文本集中微博文本的总数。

7.如权利要求2所述的方法,其特征在于,所述步骤S1.1前还包括:将繁体中文格式的微博文本转换为简体中文格式。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710074352.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top