[发明专利]基于卷积神经网络的中文微博文本情绪分类方法及其系统在审
申请号: | 201710046072.3 | 申请日: | 2017-01-22 |
公开(公告)号: | CN106874410A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 徐华;贾霏;孙晓民;邓俊辉 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 中文 文本 情绪 分类 方法 及其 系统 | ||
1.一种基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,包括以下步骤:
S1:获取微博数据;
S2:对所述微博数据进行预处理,以去除所述微博数据中的无关噪声和重复数据;
S3:对预处理后的微博数据使用Word2vec模型将词表征为实数值向;
S4:将不同大小的词的组合通过对应大小的滤波器上,通过前向传播,生成二维的特征图;
S5:将所述特征图堆积后进行池化,以实现特征降维;
S6:使用Softmax回归模型对池化后的特征图进行情绪分类。
2.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,所述预处理包括:
删除网页链接、位置信息和重复的子句;
将网络流行语及网络缩写在遍历用语词典获取对应的文字信息,在遍历用语词典后找不着对应含义的网络流行语及网络缩写进行人工标注;
将表情符号用对应的文字代替。
3.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,在步骤S4中,通过以下公式生成所述特征图:
mi=W*xi,i+h-1+b,b∈R
Mi=[m1,m2,...,mi-h+1]
Ni=ReLU(Mi)=max(0,Mi)
其中,x为输入到卷积层的语句的向量表示,b是偏置项,mi为一个滤波器输出函数,Mi为原始特征,滤波器W∈Rhk,R表示向量空间,h表示窗口大小,k表示维度为k维,Relu为非线性函数。
4.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,在步骤S5中,使用1-max策略进行所述池化。
5.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法,其特征在于,在步骤S6中,使用基于OCC模型的ECOCC模型进行所述情绪分类。
6.一种基于卷积神经网络的中文微博文本情绪分类系统,其特征在于,包括:
信息获取模块,用于获取微博数据;
数据预处理模块,用于对所述微博数据进行预处理,以去除所述微博数据中的无关噪声和重复数据;
语句嵌入模块,用于对预处理后的微博数据使用Word2vec模型将词表征为实数值向;
卷积模块,用于将不同大小的词的组合通过对应大小的滤波器上,通过前向传播,生成二维的特征图;
池化模块,用于将所述特征图堆积后进行池化,以实现特征降维;
分类模块,用于使用Softmax回归模型对池化后的特征图进行情绪分类。
7.根据权利要求6所述的基于卷积神经网络的中文微博文本情绪分类系统,其特征在于,所述数据预处理模块进一步用于:
删除网页链接、位置信息和重复的子句;
将网络流行语及网络缩写在遍历用语词典获取对应的文字信息,在遍历用语词典后找不着对应含义的网络流行语及网络缩写进行人工标注;
将表情符号用对应的文字代替。
8.根据权利要求6所述的基于卷积神经网络的中文微博文本情绪分类系统,其特征在于,所述卷积模块通过以下公式生成所述特征图:
mi=W*xi,i+h-1+b,b∈R
Mi=[m1,m2,...,mi-h+1]
Ni=ReLU(Mi)=max(0,Mi)
其中,x为输入到卷积层的语句的向量表示,b是偏置项,mi为一个滤波器输出函数,Mi为原始特征,滤波器W∈Rhk,R表示向量空间,h表示窗口大小,k表示维度为k维,Relu为非线性函数。
9.根据权利要求6所述的基于卷积神经网络的中文微博文本情绪分类系统,其特征在于,所述池化模块使用1-max策略进行所述池化。
10.根据权利要求6所述的基于卷积神经网络的中文微博文本情绪分类系统,其特征在于,所述分类模块使用基于OCC模型的ECOCC模型进行所述情绪分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710046072.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:点云数据的存储方法及装置
- 下一篇:一种表格的搜索方法及搜索平台