[发明专利]基于元素共现的网络舆情自动识别技术在审
| 申请号: | 201911248914.9 | 申请日: | 2019-12-09 |
| 公开(公告)号: | CN111046650A | 公开(公告)日: | 2020-04-21 |
| 发明(设计)人: | 程南昌;宋康;邹煜;滕永林;杨柳 | 申请(专利权)人: | 中国传媒大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/30;G06F16/33;G06Q50/00 |
| 代理公司: | 北京智行阳光知识产权代理事务所(普通合伙) 11738 | 代理人: | 黄锦阳 |
| 地址: | 100024 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 元素 网络 舆情 自动识别 技术 | ||
本发明公开了基于元素共现的网络舆情自动识别技术,包括实现方法和加权算法两个步骤,其中,实现方法包括如下步骤:S101:收集语料9436篇,记为X,共1250万字,其中舆情相关语料1836篇,记为Y,250余万字,非舆情相关语料7600篇,记为Z,约1000万字;S102:然后采用自动分词系统CUCBst对语料进行分词,并进行词频统计;S103:将X、Y、Z中的词按频次高低分成五级;S104:将Z中的词按频段与X中同频段的词比较;加权算法包括如下步骤:S201:首先计算特征词权值,然后以三类特征词的共现为基础;S202:结合特征词出现位置以及文本的长度,四个因子加权计算获得文本得分。
技术领域
本发明涉及舆情监测技术领域,特别涉及基于元素共现的网络舆情自动识别技术。
背景技术
与舆情检测相关的研究主要集中在话题检测领域,国际上曾举办过专门的评测活动,即话题检测与跟踪。在话题检测与跟踪中,话题指的是“一个种子事件或活动以及与其直接相关的事件或活动组成的报道集合。”话题检测的任务是检测和组织系统预先未知的话题。在技术上主要采用基于统计的聚类算法,比如K-Means、质心和层次聚类等。因聚类方法计算量大,在面向海量网络文档时,直接通过聚类方法来检测舆情相关话题的系统较为罕见。
虽然话题检测与跟踪评测到2004年已经停止,但相关研究还在继续。近年来,现有文献提出了基于话题分制与基于词元再评估的新事件检测方法。新事件检测技术可以用来检测类似于9·11这样的突发事件的第一个报道,与舆情检测相关。文献把待检测话题的子话题信息加入到判断新事件的实验中,比如子话题多的话题为新事件的可能性要小于子话题少的话题。文献发现不同词性的词元在不同类新闻中的敏感性是不一样的,因此,在计算过程中需根据新闻的具体类别对其权重重新进行评估。文献所使用的话题检测与跟踪评测语料已经按不同的话题进行了详细分类,但是真实的网络文档并没有类别、子话题等相关信息可以利用。文献采用基于关键词的搜索方法来发现新浪博客中的突发事件,并通过限定时间段与限定域名的方法来约束搜索结果,减少冗余。这与前文提及的关键词分级方法类似。文献则通过热词识别热点句子,然后对热点句子进行聚类,以此来实现热点话题的识别。热点话题属于舆情的可能性较大,与本研究相关。虽然文献把聚类的计算量由篇章降低到句子级别,但热词与热点句子的识别也要消耗较大的计算量。
综上,当前舆情检测的不足可以归纳为3点:
(1)领域针对性不强,面世的系统基本是面向整个社会与政治的;
(2)主要采用基于批量关键词或舆情词典的方法,其不足已在引言部分提及;
(3)基于统计的聚类方法以及其他新方法,还较多地停留在理论层面,在实际的舆情检测中尚不多见。
发明内容
本发明的目的在于提供基于元素共现的网络舆情自动识别技术,本发明从舆情的本质出发,把构成舆情的三个主要元素(主体、客体和情感倾向)分别用三类特征词表示,并将三类特征词按组合和聚合关系动态地组合,既可生成某个领域与舆情相关的话题,又能有效地识别出该领域的舆情信息。该方法已在“语言文字舆情监测系统”与“高等教育舆情监测系统”中得到了实际应用,分别达到了92%和93%的准确率,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
基于元素共现的网络舆情自动识别技术,包括实现方法和加权算法两个步骤,其中,实现方法包括如下步骤:
S101:收集语料9436篇,记为X,共1250万字,其中舆情相关语料1836篇,记为Y,250余万字,非舆情相关语料7600篇,记为Z,约1000万字;
S102:然后采用自动分词系统CUCBst对语料进行分词,并进行词频统计;
S103:将X、Y、Z中的词按频次高低分成五级;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911248914.9/2.html,转载请声明来源钻瓜专利网。





