[发明专利]一种中文微博的情感倾向分析方法有效
申请号: | 201310072472.3 | 申请日: | 2013-03-07 |
公开(公告)号: | CN103150367A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 刘红玉;刘丹;高云棋;郭成林;彭春林 | 申请(专利权)人: | 宁波成电泰克电子信息技术发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都宏顺专利代理事务所(普通合伙) 51227 | 代理人: | 周永宏 |
地址: | 315040 浙江省宁*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 情感 倾向 分析 方法 | ||
1.一种中文微博的情感倾向分析方法,具体包括如下步骤:
S1.对微博文本进行分类,根据文本的构成特征将微博文本分为原创类文本和转发或评论类文本;
S2.根据微博文本的类型,对微博文本进行情感倾向分析。
2.根据权利要求1所述的中文微博的情感倾向分析方法,其特征在于,对原创类文本进行情感倾向分析的具体过程如下:
步骤10,对微博文本进行预处理,即提取文本中的下述字段,所述字段具体包括:微博中使用的表情、作者、转发数、评论数、包含的外部链接、标签、文本中是否其他用户、作者是否加V;
步骤11,对预处理后的微博文本进行分析,依据预先定义的情感词典,根据是否包含情感词、情感表情、外部链接来判断文本的主客观倾向;
步骤12,如果步骤11中判断的微博文本为客观文本,则将微博文本的情感倾向记为中性;否则,按下述过程判断微博文本的正负向:
步骤121,将微博文本分句,将句子中的用户、标签去掉,然后使用分词工具将句子分词并标注词性;
步骤122,根据预定义的情感词典,情感组合短语、否定词典、转折词典、句中包含的情感表情、表示感情的标点符号,来计算每句的情感倾向,然后综合计算整个微博文本的情感倾向以及置信度;
步骤123,选取情感词、表情、否定词、转折词,使用分类器来分析情感倾向;
步骤124,依据步骤122及123的结果,综合评定微博文本的情感倾向。
3.根据权利要求1或2所述的中文微博的情感倾向分析方法,其特征在于,对转发或评论类文本进行情感倾向分析的具体过程如下:
步骤20,查找到转发或评论类文本的原创类文本;
步骤21,判断原创类文本的情感倾向;
步骤22,如果转发或评论类文本的字数不大于预先设定的阈值,则转向步骤23;否则,计算该转发或评论类文本的情感倾向;
步骤23,根据情感词典和情感表情的数量来分析情感倾向,如果计算出的情感倾向为中性,则认为该文本的情感倾向与该文本的原创类文本的情感倾向相同,否则,计算出的情感倾向即为该文本的情感倾向。
4.根据权利要求2所述的中文微博的情感倾向分析方法,其特征在于,综合计算整个微博文本的情感倾向以及置信度的具体过程如下:
先以句子为单位,分别计算情感倾向,用w表示情感词的权值,p表示加权系数,n表示句中包含的情感词和情感表情的个数(重复的只算1次)。
正向情感词或正向表情的权值w(词语)为1,加权系数p(词语)为1,负向情感词或负向表情权值w(词语)为-1,加权系数p(词语)为1,如果有重复,加权系数p记为1.1或-1.1,不累计;含有否定词的句子,查找该否定词后面离该否定词最近的一个情感词,取该情感词的加权系数p(词语)为-1,如果没有找到,认为该否定词不起作用,含有双重否定词的句子,或者使用表示强烈情感的标点符号,整句的情感系数p(句)为1.1,否则为1;
句子的情感值w(句)计算公式为:
置信度α(句)计算公式为:
整条微博的情感值w(文本)计算公式为:w(文本)=∑w(句)α(句);
如果w(文本)不小于0,则判定微博的情感倾向为正向,情感倾向s(语义)为1,否则判定微博的情感倾向为负,情感倾向s(语义)为-1;
置信度α(语义)计算公式为:
整个微博文本的情感分析结果由二元组(s(语义),α(语义))来表示。
5.根据权利要求4所述的中文微博的情感倾向分析方法,其特征在于,综合评定微博文本的情感倾向的具体过程如下:
置信度计算公式为:
其中,二元组(s(分类),α(分类))为步骤123得到的情感分析结果;
最终的情感分析结果由下式确定:即s=1时,情感分析结果为正向,s=-1时,情感分析结果为负向。
6.根据权利要求2所述的中文微博的情感倾向分析方法,其特征在于,所述的分类器具体为朴素贝叶斯分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波成电泰克电子信息技术发展有限公司,未经宁波成电泰克电子信息技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310072472.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对Flash窗口的处理方法和装置
- 下一篇:电动汽车专用电池的信息采集罩