[发明专利]基于情绪的文本分类方法有效
申请号: | 201710283976.8 | 申请日: | 2017-04-26 |
公开(公告)号: | CN107220293B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 侯庆志;王正凯;喻梅;王建荣;徐天一;成基元 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 情绪 文本 分类 方法 | ||
本发明属于数据挖掘、自然语言处理和信息检索领域,为提出一种基于情绪的文本分类算法(Emotion Text Classification,ETC),它将情绪因素与语料库扩展的情感分类算法结合,并对原始语料库的分类情感极性值,通过集成模型获得原始语料库的最终分类情感极性值。本发明采用的技术方案是,基于情绪的文本分类方法,步骤如下:步骤一:获取中文情绪词典;步骤二:紧张词和放松词强度检测;步骤三:文本情感分类;步骤四:集成分类预测。本发明主要应用于数据挖掘、自然语言处理和信息检索场合。
技术领域
本发明属于数据挖掘、自然语言处理和信息检索领域,涉及短文本情感分析技术,尤其是一种基于情感分析的文本分类方法。
背景技术
国外研究人员在情感分析领域中贡献了许多具有权威性的数据集,并广泛应用于各个会议和比赛;然而在中文文本情感分析领域中,完全满足研究需要、且具有足够权威性的已标注数据集则相对较少;同时,语料库扩展能够去掉部分噪声,在一定程度上缓解特征稀疏性问题,增加文本内容的语义相关空间,形成语义相近且拥有不同词语的文本,能够有效提高情感分析技术的实验效果。
目前主要的比较精确的文本分类算法为语料库扩展的情感分类算法(DataExpansion Sentiment Analysis,DESA),该算法虽然可以在一定程度上提高情感分析技术的准确率,但该方法只分析了扩展语料库文本中的事件和观点,并未考虑用户的情绪。
发明内容
为克服现有技术的不足,本发明旨在提出一种基于情绪的文本分类算法(EmotionText Classification,ETC),它将情绪因素与语料库扩展的情感分类算法结合,并对原始语料库的分类情感极性值,通过集成模型获得原始语料库的最终分类情感极性值。本发明采用的技术方案是,基于情绪的文本分类方法,步骤如下:
步骤一:获取中文情绪词典:使用英文紧张词和放松词标注词典,通过翻译工具转换成中文,并向中文词典中手动添加部分相关的词语;
步骤二:紧张词和放松词强度检测:根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理;
步骤三:文本情感分类:采用支持向量机算法SVM(Support Vector Machine)对新的特征向量进行分类,得到原始语料库的情感倾向值;
步骤四:集成分类预测,将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。
验证步骤:使用准确率Precision Rate、召回率Recall Rate、F值F-measure作为验证研究课题意义的实验评价标准,准确率、召回率、F值的计算方法如下:
其中,ni表示真实类别i包含的文本上,nj表示分类后类别j包含的文本数,ni,j表示分类后类别j中属于真实类别i的文档数,Precision(i,j)表示准确率,分类正确的信息条数与所有的信息条数之比,Recall(i,j)表示召回率,分类正确的信息条数与样本中正确的信息条数之比,F表示准确率与召回率的调和平均数。
基于情绪的情感分析算法加入紧张词和放松词强度检测部分,使用Adaboost算法预测原始文本的情感极值,从而提高情感分析技术的实验效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710283976.8/2.html,转载请声明来源钻瓜专利网。