[发明专利]一种文本正负类情感分类方法有效

申请号：	201710532502.2	申请日：	2017-07-03
公开（公告）号：	CN107423371B	公开（公告）日：	2020-09-08
发明（设计）人：	李光敏;林志伟;王晖;魏欣	申请（专利权）人：	湖北师范大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/30
代理公司：	武汉智嘉联合知识产权代理事务所(普通合伙) 42231	代理人：	黄君军
地址：	435002***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本正负情感分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本正负类情感分类方法，包括如下步骤：

步骤一，对文本集合中的所有文本进行预处理，形成无噪音的正负例文本集合；

步骤二，使用词袋语言模型，对正负例文本分别进行unigram分词和bigram分词，并去掉停用词后，形成无重复的多维特征向量空间；

步骤三，采用参数可调化的特征权重计算方法，对多维特征向量空间中的各维特征向量进行变体词频逆文档频率计算，正例文本的变体词频逆文档频率计算公式为式中，表示词t_i在当前正例文本d_(j,+)中出现的总次数，tf_max(d₊)表示取正例文本中的所有词项出现次数的最大值，N₊表示正例文本总数，表示所有包含词t_i的正例文本总数，α表示平滑因子，是范围在0和1之间的实数值，log表示自然对数；

负例文本的变体词频逆文档频率计算公式为式中，表示词t_i在当前负例文本d_(j,-)中出现的总次数，tf_max(d_-)表示取负例文本中的所有词项出现次数的最大值，N-表示负例文本总数，表示所有包含词t_i的负例文本总数；

步骤四，计算多维特征向量空间中第i个词在第j个文本中的特征值V_(i，j)，公式为如果V_(i，j)大于0，判定词t_i属于正例情感词，如果V_(i，j)小于0，判定词t_i属于负例情感词，如果V_(i，j)等于0，判定词t_i对文本情感的分类没有区分度，最后形成词项-文档矩阵；

步骤五，将词项-文档矩阵作为监督分类器支持向量机和逻辑回归的输入因子，进行训练后得到最终的文本线性分类器预测模型，为新的未知文本进行情感分类。

2.根据权利要求1所述的一种文本正负类情感分类方法，其特征在于：步骤一中所述文本集合表示为D＝{d₁，d₂，…，d_m}，其中d_m表示文本集合D中第m个句子或篇章。

3.根据权利要求1所述的一种文本正负类情感分类方法，其特征在于：步骤一中所述预处理包括去掉HTML标记、标点符号、表情符号和数字。

4.根据权利要求1所述的一种文本正负类情感分类方法，其特征在于：步骤三中所述特征向量表示为V＝{υ₁，υ₂，...，υ_n}，其中V表示n个特征值所组成的特征向量，用来表示当前的文本，υ_n表示特征值集合中第n个特征值。

5.根据权利要求1所述的一种文本正负类情感分类方法，其特征在于：所述平滑因子α取0.15。

6.根据权利要求1～5中任一所述的一种文本正负类情感分类方法，其特征在于：所述方法全部由Python语言编写实现，所使用的Scikit-Learn工具包是通用的开源机器学习工具包。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖北师范大学，未经湖北师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710532502.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本正负类情感分类方法有效

专利文献下载