[发明专利]一种基于词性结合和特征选择的情感分类方法有效
| 申请号: | 201810554926.3 | 申请日: | 2018-05-31 | 
| 公开(公告)号: | CN108874937B | 公开(公告)日: | 2022-05-20 | 
| 发明(设计)人: | 施佺;郑亚平;邵叶秦;王晗;周晨璨 | 申请(专利权)人: | 南通大学 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 | 
| 代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 吴静安;吴扬帆 | 
| 地址: | 226000*** | 国省代码: | 江苏;32 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 词性 结合 特征 选择 情感 分类 方法 | ||
1.一种基于词性结合和特征选择的情感分类方法,对文本进行情感进行积极与消极的二元分类,其特征在于包括如下步骤:
步骤1)初始化词语-词性Word2vec模型;
步骤2)对文本进行预处理操作,并基于情感词典从预处理过后的文本数据中选择具有情感信息的特征词;
步骤3)将文本的每个特征词和词性相结合,将文本转化为“词语词性对”序列文本;
步骤4)通过所述词语-词性Word2vec模型得到“词语词性对”序列文本的每个特征词的向量,并对每一条文本按维度将词语的向量相加后取平均值来表示文本,得到文本的特征向量;
步骤5)将所述特征向量作为SVM分类器的输入得到情感分类模型;
所述情感词典由基础情感词典、扩展情感词典和多元搭配情感词典组成;
扩展情感词典通过如下步骤进行扩建:
步骤a)将采集到的大规模微博语料库称为扩展语料库,并对其进行清洗、分词和去停用词的预处理操作,通过Word2vec工具对预处理后的扩展语料库进行训练生成词向量模型w2v_extend并保存模型;
步骤b)计算语料库中每个词的词频-逆文件频率TF-IDF值,并按照TF-IDF值对词按从大到小排序,得到词集W={(w1,tfidf1),(w2,tfidf2),...,(wm,tfidfm)};
步骤c)生成基准情感词,基准情感词分为褒义种子情感词和贬义种子情感词,从词集W选取属于中文情绪词汇本体库的词语,并选取褒义种子情感词、贬义种子情感词各k个词,构成褒义种子词集Wp={wp1,wp2,...,wpk}和贬义种子词集Wn={Wn1,Wn2,...,Wnk};
步骤d)生成候选情感词集,从词集W去掉种子词集,并比较剩下的每个词wi的tfidfi值,选择的词语构成候选词集CW={cw1,cw2,…,cwn};
步骤e)使用所述w2v_extend模型计算目标词和种子词之间的相似度,通过所述相似度判断目标词的情感极性;
步骤f)输出扩展情感词典;
多元搭配情感词典的构建为:首先利用Python Jieba分词工具对数据集进行分词,再根据设定的规则,将被分开的词能够重新组成一个新的短语,若所述新的短语与原文本的内容相匹配,则将所述新的短语加入所述多元搭配情感词典;
所述步骤1)具体为:首先将多元搭配情感词典导入到Pyton Jieba分词工具的用户自定义词典后对训练词向量的大规模语料进行优化分词操作;再将分词后的文本的每个词语和词性相融合构成“词语词性对”序列文本,表示方式为(词语,词性)的形式;最后通过Word2vec工具训练所述“词语词性对”序列文本得到词语-词性Word2vec模型;
所述步骤e)中w2v_extend模型通过式(1)、式(2)以及式(3)计算目标词与褒义和贬义种子情感的种子集之间的距离,并通过所述距离表示目标词与褒义和贬义种子情感的种子集之间的相似度,
f(W,word)=fp(Wp,word)-fn(Wn,word) (3)
其中,fp(Wp,word)是指目标词word与褒义种子情感词集合Wp={Wp1,Wp2,...,Wpk}之间的平均余弦距离,Wpi是褒义种子情感词集合中的第i个词,fn(Wn,word)是指目标词与贬义种子情感词集合Wn={Wn1,Wn2,...,Wnk}之间的平均余弦距离,Wni是贬义种子情感词集合中的第i个词;若f(W,word)>0时,则目标词属于积极情感词;若f(W,word)>0时,则词语属于消极情感词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810554926.3/1.html,转载请声明来源钻瓜专利网。





