[发明专利]文本情感分类方法、存储介质及计算机在审
申请号: | 201711012851.8 | 申请日: | 2017-10-26 |
公开(公告)号: | CN107590134A | 公开(公告)日: | 2018-01-16 |
发明(设计)人: | 曾伟波;郑耀松;倪时龙;苏江文;许成功;吕君玉;何天尝;林祥仙 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国家电网公司;国网信息通信产业集团有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 福州市景弘专利代理事务所(普通合伙)35219 | 代理人: | 林祥翔,徐剑兵 |
地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 情感 分类 方法 存储 介质 计算机 | ||
技术领域
本发明涉及机器学习领域,尤其涉及一种文本情感分类的方法及存储介质。
背景技术
情感分类,其主要用于分析或预测带有情感倾向的文本所属的情感类别。一般分为正向、负向或者正向、负向以及中性。根据研究对象的大小粒度的差别,可以粗略地将情感分析技术分为如下三个层次:词语级、句子级和篇章级的情感分析。
基于词语级的情感分类又可以分为基于词典的情感分类模型和基于语料库的情感分类模型。基于词典的情感分类模型依靠已有的词典中的同义、反义关系来判断文本中词的情感倾向。有学者将“好”和“坏”这类明显倾向的词作为基准词,然后再计算登录词与基准词之间的互信息的差。有学者利用HowNet标注检测文本中的形容词的模糊情感类别,通过计算净覆盖得分来区分情感类别不确定的形容词和情感类别确定的核心形容词。基于语料库的情感分类模型主要是通过对已有的语料库进行统计分析,来识别词语的情感倾向性。有学者提出一种基于情感一致性理论的方法,他们认为不同的连接词蕴含着潜在的语义关系,所以利用语料库中的连接词可以挖掘出未登录词的语义情感。有学者提出了一种解决情感词领域依赖的方法,首先用已有的语料库来抽取文本中的情感词和情感对象,然后将它们形成一个情感搭配对,利用启发式算法来计算出每个情感搭配对的情感,将最后结果构造成一个情感搭配词典,这种做法在一定程度上解决了情感词的上下文依赖。
基于句子级的情感分类又可以分为两个子方向:基于语义的情感分类和基于统计的情感分类。基于语义的情感分类需要匹配情感词典来找出句子中的情感词,再通过情感词的情感强度或者极性来计算句子整体的情感。有学者尝试利用修辞结构理论解决句子的情感倾向性问题,首先根据该理论将句子划分为不同的文本元素块,并根据对文档整体情感的重要程度对每个元素块分配不同的权重,最后通过加权求得句子整体的情感得分进行情感预测。基于统计的情感分析方法就是基于机器学习的方法,利用已经标注的数据通过机器学习算法训练出一个模型,然后用该模型对未知的文本数据进行情感倾向的预测。有学者尝试利用正负向情感词的个数、否定词、特殊的关键词、词性标签以及表情符号以及等来构建特征向量,利用机器学习的方法对推特数据进行情感倾向分类,随着深度学习的大热,也有学者利用递归神经网络对短语向量和词向量进行组合并其作为特征送入分类器中进行情感倾向分析,实验证明了该类方法的有效性。
基于篇章级情感分类主要研究像新闻、博客等这样篇章级文本的整体情感。研究的重点是放在文本的语义信息上。有学者提出的方法分析了篇章级文本中出现的评价短语词组,通过分析这些评价短语词组的情感倾向性,半自动地构建一个情感词典,然后利用情感词典来分析篇章的整体情感。而基于机器学习的方法来对篇章级文本进行情感分析则更为普遍。该类方法利用情感词、短语等各种资源,通过支持向量机这一经典机器学习算法来构建篇章级文本的情感分类模型。此外,还有一类方法是先将篇章级文本划分为多个句子,并利用最大熵算法对每一个句子进行情感分析;然后将句子的情感倾向与其位置、句式等特征结合,形成篇章的特征送入支持向量机,训练出篇章级文本的情感分类器,也取得了不错的结果。
发明内容
为此,需要提供一种文本情感分类方法,解决现有技术情感分类不够高效、稳定的问题;
为实现上述目的,发明人提供了一种文本情感分类方法,包括如下步骤,对输入文本进行情感词典构建,所述情感词典构建步骤包括词性选择表达、底层特征向量提取;中层特征提取,结合所述情感词典,采集训练样本的词向量,对训练样本的词向量进行池化后得到中层特征向量;对所述底层特征向量、中层特征向量进行加权融合,得到融合特征向量,分别基于底层特征向量分类模型、中层特征向量分类模型、融合特征向量分类模型计算分类结果。
具体地,所述底层向量提取具体为,对底层特征使用向量空间模型进行表达,其中每一维的特征为归一化后的TF-TDF权重。
进一步地,底层特征向量、中层特征向量加权融合表达为,
其中,L表示底层特征向量,M表示为中层特征向量,为底层特征的权重,||表示的是串联的符号。
优选地,所述对词向量进行池化具体步骤后包括,将底层特征向量的维度数等分为若干份,将每一份维度中的词向量进行求和,再将求和结果按先后顺序对求和结果进行合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国家电网公司;国网信息通信产业集团有限公司,未经福建亿榕信息技术有限公司;国家电网公司;国网信息通信产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711012851.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种FPC柔性电路板镀膜工艺
- 下一篇:一种柔性线路板快速压合机