[发明专利]微博中网络新词抽取方法和微博情感分析方法及系统有效
| 申请号: | 201310506561.4 | 申请日: | 2013-10-24 |
| 公开(公告)号: | CN103559233B | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 张鲁民;贾焰;周斌;韩毅 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇 |
| 地址: | 410073 湖南省长沙*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 微博中 网络 新词 抽取 方法 情感 分析 系统 | ||
技术领域
本发明属于数据挖掘领域,尤其涉及针对微博数据的情感分析方法。
背景技术
随着互联网和通信技术的发展,以新闻报道为代表的长文本已经不再是人们获得信息源的唯一途径。《2010年中国互联网舆情分析报告》调查显示,2010年年度网络热点事件中关于“腾讯与360大战”话题,新浪微博的回复量达到260万条,“上海世博会”的相关评论也达到106万条,远远超过新闻报道、社区、论坛的数目。2011年7月23日温州动车事件,新浪微博相关评论达到282万,腾讯微博也有684万回复量。可见微博已经成为社会舆论传播的重要媒介之一,对微博进行情感分析,是掌握网民对突发事件的情感反馈的主要手段。
情感分析,又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理归纳和推理的过程。目前情感分析的主要研究点在于对文本的倾向性进行分析,即挖掘网络文本内容蕴含的各种情感、信念、态度、意见和情感等属性信息。目前国内外对于文本倾向性的研究从方法上可大致分为两类:基于统计的文本倾向性研究方法和基于语义规则的文本倾向性研究方法。
基于统计的文本倾向性研究方法的核心思想是首先人工标注一些文档的倾向性,并将这些已标注文档作为训练集,再通过机器学习的方法构造一个褒贬两类分类器。最后使用构造好的褒贬两类分类器对待分析文档进行分类,从而识别出该文档的倾向性。有研究者使用标准的机器学习技术对文本分类工作进行了研究,比较了朴素贝叶斯(Native Bayes)、最大熵(Maximum Entropy)及支持向量机(Support Vector Machines)方法在文本分类上的效果,并提出了将分类结果按照语义倾向性强度进行细分的方法。
基于语义规则的文本倾向性研究方法主要有两种。第一种是先对待分析文本中的形容词或能够体现主观色彩的短语进行抽取,然后对抽取出来的形容词或短语逐一进行倾向性判断并赋予一个倾向值,最后将上述所有倾向值累加起来得到文章的总体文本倾向性。有研究者对形容词作倾向性分析,利用词汇之间的连词训练生成词汇间的同义或反义倾向的连接图,然后用聚类的方法将词汇聚成褒义和贬义两类。也有研究者使用两个词汇“excellent”与“poor”作为基准词来判断其它词汇的语义倾向,通过PMI_IR(Pointwise Mutual Information and Information Retrieval,逐点互信息和信息检索)方法,计算词语的情感倾向值,根据给定的阈值把词语划分为褒义和贬义两个类别。也有研究者直接使用已有的本体知识库判断词的倾向性,如使用英文的WordNet及中文的HowNet来计算待估词与已选定的基准词对的语义距离,进而判断待估词的倾向性。第二种基于语义的文本倾向性的研究方法是预先建立一个倾向性语义模式库,有时还会附带一个倾向性字典。然后将待估文档参照语义模式库做模式匹配,最后累加所有匹配模式对应的倾向性值从而得到整个文档的倾向性。
上述研究无论采用监督学习还是无监督学习的方法,其对文本的情感分析都可以抽象成一个三元分类问题,即将文本的情感分为积极、消极、中立(或者正面、负面、中立)。实际上,用户在同一文本中往往体现出多元化的情感,例如微博“此次汶川地震我深深被大自然的力量震惊了,深切同情遇难同胞,,实际上体现出了两种情感“震惊”与“同情”,传统文本的三元分类对这种多元化的情感表征存在严重不足。目前,许多研究人员已经意识到这个不足,例如有研究者针对博客采用向量的表示方法对多元化情感进行建模,但其研究是基于表情符号来构建向量,并未充分利用内容信息进行分析研究。
发明内容
针对上述问题,本发明提出了一种基于能够充分表征多元化情感的多维向量来对微博情感进行分析的方法。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种微博情感分析方法,该方法包括
步骤1,确定情感向量E,所述情感向量E由多个能够表示情感的情感词构成;
步骤2,对于待分析的每条博文M,建立该博文的情感向量EM=<xM1,XM2,…,XMi,…>;其中,如果情感向量E中第i个情感词属于该博文M的关键词集合,则EM中对应的第i个元素XMi取值为1,否则取值为0;
步骤3,基于博文的情感向量来得到对事件的情感分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310506561.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种去除邻硝基苯甲醛的酶制剂及其应用
- 下一篇:空调散热器用清洗剂





