[发明专利]一种基于深度学习的中文文本情感分析方法在审
申请号: | 201711307041.5 | 申请日: | 2017-12-11 |
公开(公告)号: | CN107944014A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 严勤;丁聪;陈葛恒;肖丽莎 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京纵横知识产权代理有限公司32224 | 代理人: | 董建林 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 中文 文本 情感 分析 方法 | ||
技术领域
本发明涉及一种基于深度学习的中文文本情感分析方法,属于自然语言处理和深度学习技术领域。
背景技术
互联网的迅速发展使微博和社交网络成为流行的沟通交流形式。数以亿计反映人们观点和态度的信息每天通过Twitter、Facebook等平台发布并和所有人分享,这就给监控和分析私人企业或社会公共领域观点、情绪提供了机会。
文本情感分析是对人们的观点、情绪、态度以及对诸如产品、服务、组织、事件等实体情感倾向做出有效分析然后进一步做信息归纳推理的一类技术。针对网络媒介产生的海量数据,提取出有价值的情绪和观点,并对其做出准确的文本情感分析,在诸多领域都有应用价值,例如:企业可以依据与其产品相关的反馈情绪进行售后服务调整及市场策略制定;政府可以根据社交平台的大量文本情绪分析制定出更加符合群众需求的政策制度;金融方面也可以根据各种金融消息的情绪观点提取挖掘进行某一金融市场的趋势预测等。
文本(英文)情感分析方面的研究在国外进行的比较早,成果也比较成熟,比如:Turney和Pang分别用不同的方法实现产品和电影评论的极性分类,随后Pang和Snyder又将多种方法结合再次进行了尝试。除此之外,Pang和Lee还将电影评论的极性分类基础任务扩展到了星级评定预测,同时Snyder将饭店评论做深层分析后用来预测饭店各方面的等级评定例如食物、环境等(共5个等级)。Gruhl等人通过对在线网络聊天信息的情感分析预测图书销售趋势,Mishne等人从博客中抓取具有情绪的信息来预测电影票房。然而由于英文与中文文本结构的差异性,中文文本的情感分析研究难度要大得多,再加上起步晚、标注文本预料有限、技术方法落后等因素,中文文本情感分析的研究仍有很大的提升空间。
目前中文文本情感分析方法目前大部分基于规则和有监督基于机器学习,局限性有以下几个方面:(1)由于对语言知识规则因人而异,情感判断规则制定受制定人研究水平限制;(2)一些方法在句子特征提取时,凭经验人为进行特征选取,因此情感分析效果受人为因素影响比较大等。
发明内容
为了解决上述技术问题,本发明提供了一种基于深度学习的中文文本情感分析方法。
为了达到上述目的,本发明所采用的技术方案是:
一种基于深度学习的中文文本情感分析方法,包括以下步骤,
步骤1,训练LSTM-MP模型和Softmax分类器;
具体过程如下:
获取网络文本;
对获得的网络文本进行预处理,得到网络文本中的中文句子;
对中文句子进行中文分词并构建词向量词典;
将若干中文句子进行人工标注,作为LSTM-MP模型实验数据,其余中文句子作为LSTM-MP模型训练数据;
用LSTM-MP模型训练数据训练LSTM-MP模型;
用训练好的LSTM-MP模型将LSTM-MP模型实验数据全部转换为句向量;
将若干句向量作为Softmax分类器训练数据,其余句向量作为Softmax分类器测试数据;
用Softmax分类器训练数据训练Softmax分类器,用Softmax分类器测试数据测试训练好的Softmax分类器;
步骤2,用训练好的LSTM-MP模型和Softmax分类器进行情感分析。
设计多线程爬虫进行网络文本获取的过程为,
选取适当的网站首页URL初始化爬虫的URL列表;
获取各网站首页的HTML文档,解析出HTML文档中消息对应的URL,对消息对应的URL去重后添加至URL列表;
若有新发布的消息,则将新消息对应的URL添加至URL列表;
根据URL获取对应的HTML文档;
将获取到的HTML文档,利用信息抽取技术进行信息抽取,抽取出页面的信息正文部分后,按照制定格式存入本地数据库。
网络文本进行预处理的过程为,对网络文本中的转义符进行替换,对网络文本中的不规范标点符号进行替换。
对中文句子进行中文分词并构建词向量词典,具体过程为,
对中文句子进行中文分词;
词向量学习工具调试;
将中文分词得到的中文词语输入词向量学习工具,进行词向量词典构建。
选用最佳匹配法进行中文分词。
将LSTM-MP模型训练数据转换为词向量序列,然后训练LSTM-MP模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711307041.5/2.html,转载请声明来源钻瓜专利网。