[发明专利]一种网络舆情话题特征提取方法及系统在审
申请号: | 202110040615.7 | 申请日: | 2021-01-12 |
公开(公告)号: | CN112926305A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 李卫红;刘国庆;刘熠孟;杨孝锐;郭云健;张可文 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06Q50/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;颜希文 |
地址: | 511500 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 舆情 话题 特征 提取 方法 系统 | ||
本发明提供了一种网络舆情话题特征提取方法及系统,首先考虑到一般网络舆情和大规模网络舆情的差异,本发明方法适用于大规模网络舆情的话题特征提取;其次,本发明在基于共词网络的方法上做了改进,在关键词提取时采用了词频结合ITF/PDF的方法,对关键词权重可以做到更准确的刻画;再次,本发明采用的无阈值的阶段间演化网络方法简单且能够保留话题间的细微关联,符合话题演化逻辑;最后,本发明提出了基于事件驱动的话题时空特征发现方法,以事件的地址标签去代替文本语料的地址标签,从而可以匹配文本语料无地址标签的情况。
技术领域
本发明涉及数据分析技术领域,尤其是涉及一种网络舆情话题特征提取方法及系统。
背景技术
目前,舆情话题特征提取主要分为两个步骤,首先是话题识别与提取,第二是话题特征发现。对于第一步话题识别与提取,目前,常用的方法主要包含基于聚类的方法、基于主题模型的方法和基于共词网络的方法;对于第二步话题特征发现,内容可以包含两点,其一是时空特征,其二是演化特征,目前话题时空特征发现方法主要是根据带地址标签的文本语料,对地址标签进行统计并时空制图;在话题演化特征探测中通常采用的方法是基于共词网络的带阈值的方法。
现有技术的舆情话题特征提取方法存在如下缺点:
首先,现有的舆情话题特征提取方法中未区分一般舆情和大规模舆情,两种舆情的时间跨度、次生事件、语料规模都存在巨大差异,应该加以区分并采用合适的方法。其次,在话题识别与提取过程中,现有的方法分别存在以下问题,基于聚类的方法具有随机性,会引入干扰信息影响精度;基于主题模型的方法需要事先确定话题数量,然而大规模网络舆情跨度大话题多,主题模型的方法会产生话题遗漏的问题;基于共词网络的方法虽然能够呈现科学的认知结构,但是在具体步骤上仍有可以改进的地方,如大多数方法采用词频或者是主观判断提取关键词,这种关键词提取方法具有主观性并且对关键词权重刻画不够准确。再次,目前采用的话题时空特征发现方法不适用于无地址标签的数据,并且现有方法反映的是发帖热点或评论热点,而不是反映的网民关注点。最后,现有的话题演化探测方法采用的是带阈值的共词网络的方法,通过阈值的设定,过滤了部分话题,因此无法保留关联度较小的话题关系。
发明内容
本发明旨在提供一种网络舆情话题特征提取方法及系统,以解决上述技术问题。
为了解决上述技术问题,本发明提供了一种网络舆情话题特征提取方法,包括:
采用词频结合ITF/PDF方法对待测文本语料进行关键词提取;
根据提取的关键词在所述待测文本语料中的共现关系构建共词网络;
采用Louvain算法对所述共词网络进行社区划分;
对相邻时间段所构建的共词网络进行话题演化探测得到演化类型时间表;
采用基于事件驱动的方法结合所述演化类型时间表对所述待测文本语料进行话题时空特征提取。
进一步地,所述采用ITF/PDF的方法对待测文本语料进行关键词提取,具体为:
对所述待测文本语料进行预处理;其中,所述预处理包括分词处理、词性标注和过滤停用词语;
对预处理后的语料进行词频统计,筛选出词频大于预设词频阈值的名词和动词作为候选关键词;
采用词频结合ITF/PDF方法计算预处理后的待测文本预料中的词语权重;
从候选关键词筛选出词语权重大于预设权重阈值的名词和动词作为目标关键词。
进一步地,所述词频结合ITF/PDF方法计算权重的公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110040615.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对放射治疗系统进行规划的方法及射野布置装置
- 下一篇:电源连接器组件