[发明专利]一种中文微博的情感倾向分析方法有效
申请号: | 201310072472.3 | 申请日: | 2013-03-07 |
公开(公告)号: | CN103150367A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 刘红玉;刘丹;高云棋;郭成林;彭春林 | 申请(专利权)人: | 宁波成电泰克电子信息技术发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都宏顺专利代理事务所(普通合伙) 51227 | 代理人: | 周永宏 |
地址: | 315040 浙江省宁*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 情感 倾向 分析 方法 | ||
技术领域
本发明属于网络信息处理技术领域,具体涉及一种针对中文微博的情感倾向分析方法。
背景技术
随着互联网的发展和Web2.0的兴起,人们越来越习惯于在网络上表达自己的观点。网民针对某些热点事件的看法,对于政府了解当前的舆情信息、判断当前的舆论形势及决策是非常有价值的。而针对商品、商家的评论,则对商家调整市场策略和买家选择商品都有一定的帮助。现在网络上存在海量的带有情感倾向性的文本,依靠人工去判断这些文本的情感倾向是不可能完成的任务,文本情感分析就是针对这个领域提出的一个新兴的研究方向,它利用计算机来自动地对文本的情感倾向性进行分析。
微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台。用户开通微博服务后,可以发表、转发及评论消息,来标记生活、分享新鲜事、表达观点等。微博一问世就凭借其开放性、平等性、易用性迅速吸引了大众的目光。以新浪微博为例,截止2011年底,新浪微博的注册用户已达3亿,日活跃用户超过3000万,日均发表微博数量将近1亿条。微博文本的数量大,更新快,其中很多表达了用户对某些事件的观点和态度,研究微博文本的情感倾向性具有重要的现实意义。
中文微博与传统的中文文本相比具有明显的差异性,微博是口语化、不规则的文本,内容较短,用词比较随意,微博之间具有链接关系;而与英文微博相比,中文微博最长允许140个中文字符,比英文微博的140个英文字符(大概20-30个单词)具有更丰富的内容。因此针对传统中文文本和英文微博的情感分析研究成果并不完全适用于中文微博文本。
发明内容
本发明目的在于解决现有技术存在的上述问题,提出了一种中文微博的情感倾向分析方法。
本发明的技术的方案为:一种中文微博的情感倾向分析方法,具体包括如下步骤:
S1.对微博文本进行分类,根据文本的构成特征将微博文本分为原创类文本和转发或评论类文本;
S2.根据微博文本的类型,对微博文本进行情感倾向分析。
进一步的,对原创类文本进行情感倾向分析的具体过程如下:
步骤10,对微博文本进行预处理,即提取文本中的下述字段,包括:微博中使用的表情、作者、转发数、评论数、包含的外部链接、标签、文本中是否其他用户、作者是否加V;
步骤11,对预处理后的微博文本进行分析,依据预先定义的情感词典,根据是否包含情感词、情感表情、外部链接来判断文本的主客观倾向;
步骤12,如果步骤11中判断的微博文本为客观文本,则将微博文本的情感倾向记为中性;否则,按下述过程判断微博文本的正负向:
步骤121,将微博文本分句,将句子中的用户、标签去掉,然后使用分词工具将句子分词并标注词性;
步骤122,根据预定义的情感词典,情感组合短语、否定词典、转折词典、句中包含的情感表情、表示感情的标点符号,来计算每句的情感倾向,然后综合计算整个微博文本的情感倾向以及置信度;
步骤123,选取情感词、表情、否定词、转折词,使用分类器来分析情感倾向;
步骤124,依据步骤122及123的结果,综合评定微博文本的情感倾向。
进一步的,对转发或评论类文本进行情感倾向分析的具体过程如下:
步骤20,查找到转发或评论类文本对应的原创类文本;
步骤21,判断原创类文本的情感倾向;
步骤22,如果转发或评论类文本的字数不大于预先设定的阈值,则转向步骤23;否则,计算该转发或评论类文本的情感倾向;
步骤23,根据情感词典和情感表情的数量来分析情感倾向,如果计算出的情感倾向为中性,则认为该文本的情感倾向与该文本对应的原创类文本的情感倾向相同,否则计算出的情感倾向即为该文本的情感倾向。
本发明的有益效果:本发明的情感分析方法通过根据文本的构成特征将微博文本分为原创类文本和转发或评论类文本然后分别进行分析,在对网络上随机抓取的1000条微博文本进行测试,得到的分析准确率为81%,与现有文献相比,准确率有所提高;且方法过程比较简明,实施起来比较简单,成本低廉,具有很强的实用价值。
附图说明
图1是本发明的中文微博文本情感分析方法的流程示意图。
图2是实施例中的原创类文本的情感分析的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波成电泰克电子信息技术发展有限公司,未经宁波成电泰克电子信息技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310072472.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对Flash窗口的处理方法和装置
- 下一篇:电动汽车专用电池的信息采集罩