[发明专利]一种基于深度学习的中文文本情感分析方法在审
| 申请号: | 201711307041.5 | 申请日: | 2017-12-11 |
| 公开(公告)号: | CN107944014A | 公开(公告)日: | 2018-04-20 |
| 发明(设计)人: | 严勤;丁聪;陈葛恒;肖丽莎 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 南京纵横知识产权代理有限公司32224 | 代理人: | 董建林 |
| 地址: | 211100 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 中文 文本 情感 分析 方法 | ||
1.一种基于深度学习的中文文本情感分析方法,其特征在于:包括以下步骤,
步骤1,训练LSTM-MP模型和Softmax分类器;
具体过程如下:
获取网络文本;
对获得的网络文本进行预处理,得到网络文本中的中文句子;
对中文句子进行中文分词并构建词向量词典;
将若干中文句子进行人工标注,作为LSTM-MP模型实验数据,其余中文句子作为LSTM-MP模型训练数据;
用LSTM-MP模型训练数据训练LSTM-MP模型;
用训练好的LSTM-MP模型将LSTM-MP模型实验数据全部转换为句向量;
将若干句向量作为Softmax分类器训练数据,其余句向量作为Softmax分类器测试数据;
用Softmax分类器训练数据训练Softmax分类器,用Softmax分类器测试数据测试训练好的Softmax分类器;
步骤2,用训练好的LSTM-MP模型和Softmax分类器进行情感分析。
2.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于:设计多线程爬虫进行网络文本获取的过程为,
选取适当的网站首页URL初始化爬虫的URL列表;
获取各网站首页的HTML文档,解析出HTML文档中消息对应的URL,对消息对应的URL去重后添加至URL列表;
若有新发布的消息,则将新消息对应的URL添加至URL列表;
根据 URL获取对应的HTML文档;
将获取到的HTML文档,利用信息抽取技术进行信息抽取,抽取出页面的信息正文部分后,按照制定格式存入本地数据库。
3.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于:网络文本进行预处理的过程为,对网络文本中的转义符进行替换,对网络文本中的不规范标点符号进行替换。
4.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于:对中文句子进行中文分词并构建词向量词典,具体过程为,
对中文句子进行中文分词;
词向量学习工具调试;
将中文分词得到的中文词语输入词向量学习工具,进行词向量词典构建。
5.根据权利要求4所述的一种基于深度学习的中文文本情感分析方法,其特征在于:选用最佳匹配法进行中文分词。
6.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于:将LSTM-MP模型训练数据转换为词向量序列,然后训练LSTM-MP模型;
将LSTM-MP模型实验数据转换为词向量序列,然后用训练好的LSTM-MP模型将其转换为句向量。
7.根据权利要求1所述的一种基于深度学习的中文文本情感分析方法,其特征在于:用训练好的LSTM-MP模型和Softmax分类器进行情感分析的过程为,
获取需分析的网络文本;
对需分析的网络文本进行预处理,得到需分析的中文句子;
对需分析的中文句子进行中文分词并构建词向量词典;
将需分析的中文句子转换为词向量序列;
用训练好的LSTM-MP模型将词向量序列转换为句向量;
用训练好的Softmax分类器将句向量进行情绪分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711307041.5/1.html,转载请声明来源钻瓜专利网。





