[发明专利]基于卷积神经网络和集成学习的微博情感分析方法在审
申请号: | 201710425862.2 | 申请日: | 2017-06-08 |
公开(公告)号: | CN107247703A | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 金志刚;韩玥;罗咏梅 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08;G06F17/30 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于卷积神经网络和集成学习的微博情感分析方法,包括文本预处理。向量化表示。利用卷积神经网络提取抽象特征。训练集成分类器把得到的抽象特征输入到基分类器中,训练该样本下的弱分类器,在训练集中随机抽取不同样本,重复步骤2)3),得到若干弱分类器;最后把所有弱分类集成起来,通过多个弱分类器分类结果的组合来决定预测集微博情感的最终分类,以取得更加准确的微博情感分析。 | ||
搜索关键词: | 基于 卷积 神经网络 集成 学习 情感 分析 方法 | ||
【主权项】:
一种基于卷积神经网络和集成学习的微博情感分析方法,包括下列步骤:1)文本预处理:首先通过“爬虫”手段获取微博文本,采用人工标注的方式对微博文本进行情感标注,以此作为数据集;然后用中文分词工具进行分词预处理,将微博文本切成一个个单独的词,再重新组合成词序列;最后将预处理后的数据集划分为训练集和预测集,用训练集训练合理的分类器,用测试集对分类器的性能进行检测;2)向量化表示:设一条微博文本s由n个词构成,经分词预处理后表示为s={s1,s2,...,sn};每个词都用k维向量表示,每一条微博文本都可以表示为一个n*k的矩阵,其中,向量值由word2vec工具训练得到,若某词未出现在word2vec的训练语料中,则采用随机初始化方式对该词对应的向量进行赋值;3)利用卷积神经网络提取抽象特征:该卷积神经网络由输入层和卷积层组成,其中输入层为某条微博文本经步骤1)和2)后得到的矩阵,而卷积层又分为卷积和池化两部分,首先利用不同长度的卷积核对输入层的矩阵依次进行卷积,并通过Sigmoid激活函数得到相应的不同长度的卷积结果;为使结果归一化,可采用池化方法选取每个卷积核卷积后最大值作为该卷积核下的局部特征,用局部特征代替整条微博的抽象特征;4)训练集成分类器;把步骤3)中得到的抽象特征输入到基分类器中,训练该样本下的弱分类器,在训练集中随机抽取不同样本,重复步骤2)3),得到若干弱分类器;最后把所有弱分类集成起来,通过多个弱分类器分类结果的组合来决定预测集微博情感的最终分类,以取得更加准确的微博情感分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710425862.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种文本情感分析处理方法和系统
- 下一篇:词向量处理方法、装置以及电子设备