本发明请求保护一种融合深层特征和浅层特征的情感分类方法,选用融合Doc2vec的深层特征和TF‑IDF的浅层特征来表示文本的特征,该融合方法不仅解决了Doc2vec中固定词特征表述不清楚的问题,而且也解决了TF‑IDF方法没有考虑到词语之间语义的问题,使得文本向量对于文本的表示更加清楚。选用SVM分类方法,分类器的分类性能较好。结合上述方法处理情感分类问题可显著提高情感分类的准确率。
1.一种融合深层特征和浅层特征的情感分类方法,其特征在于,包括以下步骤:步骤1:根据准备好的情感文本语料集,人工标记类别,积极情绪的文本语料标签为1,消极情绪的文本语料标签为2,并将情感文本语料集分为训练语料集和测试语料集,并采用基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法对情感文本语料集进行分词,然后去除语料中的停用词;步骤2:对语料的分词、去停用词工作完成后提取语料中的标签、名词、副词、形容词和介词组成新的语料,采用TF‑IDF算法对得到的新语料进行训练并得到情感文本的浅层特征向量;得到情感文本的浅层特征向量后采用Doc2vec算法对经过分词、去停用词后的语料进行训练,得到词向量模型和情感文本的深层特征向量;步骤3:将步骤2中得到的浅层特征向量和深层特征向量进行融合,得到新的情感文本特征向量,所述新的情感文本特征向量包括训练语料集的情感文本特征向量和测试语料集的文本特征向量;步骤4:将步骤3中得到的训练语料集的情感文本特征向量输入SVM训练出情感分类模型;然后将步骤3中得到的测试语料集的文本特征向量输入SVM,根据已经训练好的情感分类模型进行情感类别分类并计算出情感分类的准确率。
本文链接:http://www.vipzhuanli.com/tech/sell/s_2312440.html,转载请声明来源钻瓜专利网。