[发明专利]基于特征增强的短文本情感分类方法及系统有效
申请号: | 202110570246.2 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113326374B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 安俊秀;陈涛;靳宇倡;卢晓晓 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 王红霞 |
地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 增强 文本 情感 分类 方法 系统 | ||
本发明公开了一种基于特征增强的短文本情感分类方法及系统,包括以下步骤:基于TextRank对短文本数据进行情感词提取得到情感词典;获取实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;基于所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;对所述Word2vec词向量矩阵进行分类。该方法提高了神经网络的情感特征提取能力,最终达到提高了短文本的分类效果。
技术领域
本发明涉及自然语言处理技术领域,具体的说,涉及一种基于特征增强的短文本情感分类方法及系统。
背景技术
文本情感分析是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。互联网的迅速发展催生了大量的短文本信息,如用户的见解、情感、评论等,而这些文本信息对研究人类的情感,商品的喜爱度和国内舆论的导向都有极大的价值。对于文本情感分析的研究是有巨大潜在价值的,如国家可以通过短文本情感分析技术分析网络中网民对国内外热点事件和新的国家政策的情绪分布情况,以便及时引导网民情绪向着健康的方向发展,为广大网民创造一个健康、友好、积极向上的网络环境;而企业可以通过情感分析技术对用户的商品评论信息进行情感分析,可以清楚的了解用户的喜恶情况,可以根据用户的喜好情况制定更为人性化的服务项目。
近几年来,随着自然语言处理在人们日常生活中的运用越来越多,文本情感分析技术也从中得到了很好的发展,在众多学者的研究下,长文本情感分类的准确率已经能到达一个较好的预估值;但当前互联网中大量存在的则是短文本,它所具有的特征稀疏和文本信息少的特点,使得对其做情感特征的提取显得十分困难,同时,在大多数评论信息中,由于用户文本描述的信息量不大,导致很难挖掘出用户对于当前事件的情感倾向。因此,如何从这些海量的短文本数据中及时的挖掘出有用的情感信息是一个巨大的挑战。
发明内容
本发明针对现有技术存在的不足,提供了一种基于特征增强的短文本情感分类方法,该方法提高了对短文本数据进行词向量训练时的情感特征的表征强度,提高了短文本数据的情感分类效果。
本发明的具体技术方案如下:
一种基于特征增强的短文本情感分类方法,包括以下步骤:
基于TextRank对短文本数据进行情感词提取得到情感词典;
获取实验短文本数据集,基于Word2vec模型对所述实验短文本数据集进行训练得到训练文本词向量;
对所述情感词典进行加权矩阵运算,得到情感词加权矩阵;
基于所述情感词加权矩阵和训练文本词向量进行矩阵乘法获得基于情感词加权的Word2vec词向量矩阵;
对所述Word2vec词向量矩阵进行分类。
进一步地,所述对所述情感词典进行加权矩阵运算,得到情感词加权矩阵的步骤具体包括:
将所述情感词典中的情感词进行TextRank模型训练,得到每个情感词在整个短文本数据中相应的权重,并将权重信息存在第一字典中;
查找所述训练文本词向量的词中是否包含第一字典中的词,如果有,则构建与所述训练文本词向量维度相同的权重向量;否则,构建与所述训练文本词向量维度相同的单位向量;
将权重向量与所述训练文本词向量整合形成含有情感词权重信息的文本词向量。
进一步地,基于TextRank对短文本数据进行情感词提取包括以下步骤:
对短文本数据分词处理;
对分词后的短文本数据进行数据预处理,然后挑选候选关键词构建候选情感词集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110570246.2/2.html,转载请声明来源钻瓜专利网。