[发明专利]一种文本正负类情感分类方法有效
申请号: | 201710532502.2 | 申请日: | 2017-07-03 |
公开(公告)号: | CN107423371B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 李光敏;林志伟;王晖;魏欣 | 申请(专利权)人: | 湖北师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 黄君军 |
地址: | 435002*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 正负 情感 分类 方法 | ||
1.一种文本正负类情感分类方法,包括如下步骤:
步骤一,对文本集合中的所有文本进行预处理,形成无噪音的正负例文本集合;
步骤二,使用词袋语言模型,对正负例文本分别进行unigram分词和bigram分词,并去掉停用词后,形成无重复的多维特征向量空间;
步骤三,采用参数可调化的特征权重计算方法,对多维特征向量空间中的各维特征向量进行变体词频逆文档频率计算,正例文本的变体词频逆文档频率计算公式为式中,表示词ti在当前正例文本d(j,+)中出现的总次数,tfmax(d+)表示取正例文本中的所有词项出现次数的最大值,N+表示正例文本总数,表示所有包含词ti的正例文本总数,α表示平滑因子,是范围在0和1之间的实数值,log表示自然对数;
负例文本的变体词频逆文档频率计算公式为式中,表示词ti在当前负例文本d(j,-)中出现的总次数,tfmax(d-)表示取负例文本中的所有词项出现次数的最大值,N-表示负例文本总数,表示所有包含词ti的负例文本总数;
步骤四,计算多维特征向量空间中第i个词在第j个文本中的特征值V(i,j),公式为如果V(i,j)大于0,判定词ti属于正例情感词,如果V(i,j)小于0,判定词ti属于负例情感词,如果V(i,j)等于0,判定词ti对文本情感的分类没有区分度,最后形成词项-文档矩阵;
步骤五,将词项-文档矩阵作为监督分类器支持向量机和逻辑回归的输入因子,进行训练后得到最终的文本线性分类器预测模型,为新的未知文本进行情感分类。
2.根据权利要求1所述的一种文本正负类情感分类方法,其特征在于:步骤一中所述文本集合表示为D={d1,d2,…,dm},其中dm表示文本集合D中第m个句子或篇章。
3.根据权利要求1所述的一种文本正负类情感分类方法,其特征在于:步骤一中所述预处理包括去掉HTML标记、标点符号、表情符号和数字。
4.根据权利要求1所述的一种文本正负类情感分类方法,其特征在于:步骤三中所述特征向量表示为V={υ1,υ2,...,υn},其中V表示n个特征值所组成的特征向量,用来表示当前的文本,υn表示特征值集合中第n个特征值。
5.根据权利要求1所述的一种文本正负类情感分类方法,其特征在于:所述平滑因子α取0.15。
6.根据权利要求1~5中任一所述的一种文本正负类情感分类方法,其特征在于:所述方法全部由Python语言编写实现,所使用的Scikit-Learn工具包是通用的开源机器学习工具包。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北师范大学,未经湖北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710532502.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:复合包装膜
- 下一篇:一种半导体复合聚酯基膜