[发明专利]一种文本情感分析处理方法和系统在审
申请号: | 201710313628.0 | 申请日: | 2017-05-05 |
公开(公告)号: | CN107247702A | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 黄文明;杜梦豪;孙晓洁;卫万成 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立,周玉婷 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 情感 分析 处理 方法 系统 | ||
技术领域
本发明涉及数据分析技术领域,特别涉及一种文本情感分析处理方法和系统。
背景技术
随着通信互联网技术的蓬勃发展以及web3.0时代的到来,互联网从单向传播模式逐渐转向以用户作为中心,使每给人参与的开放式架构理念。互联网用户不在仅仅读网页而是能够在网页上写自己的言论,由被动接受互联网信息转变为主动接受并传播互联网信息。微博,博客,论坛,新闻和产品评论等互联网应用产生了大量的由用户参与的,带有用户主观色彩并对人物,事件,产品等有价值的评论信息。通过分析这些评论信息的情感方向,政府可以更加了解人民的政策诉求。商家可以更加了解产品的市场需求。鉴于此,研究一种有效的文本情感分析方法有着十分重要的意义。
自2003年Nasukawa提出情感分析概念以来,大量的研究者对情感分析展开了深入而广泛的研究。Liu在2012年系统的介绍了情感分析的各个方面,按照不同的归类方式将情感分析的任务划分为不同的层次:按照处理文本的类型,可分为词或短语级别句子级别和文档级别的情感分析;按照情感分析任务的输出结果,可以将其划分为情感极性分析、情感强度测试等;按照研究方法,可以分为有监督的学习方法和无监督的学习方法等。
基于情感词典的文本情感分析方法,是一种典型的无监督学习。情感词典中,每个词或短语由专家赋予情感极性或者情感强度,研究者结合情感词典数据,构建人工规则,判断目标文本的情感极性。另一种监督学习是基于句子结构的方法。主观性文本比客观性文本使用更多的形容词和副词,而客观性文本中名词占有较大的比例。Tureny使用点互信息(PMI)方法扩展肯定和否定的种子词汇,通过研究包含情感倾向的句子结构,把极性语义(ISA)算法应用于文本的情感分析中,构造出多个固定的句式结构来分析目标文本是否含有情感倾向。
有监督的方法是使用大量的己标注的文本,通过机器学习算法,训练分类模型来预测目标文本的类别。Pang等最早将有监督的机器学习方法用于解决情感分析任务中,仅使用基本的词袋特征,取得的结果就高于基于规则的方法。
深度学习(Deep Learning)是一种多层的表征学习方法,每一层的抽象表示通过包含了很多神经元的隐层获得,抽象表示在不同隐层之间传递以使得在上一层能够获得更加抽象的信息表示。Bengio等人提出的由三层神经网络构建的n-gram模型是深度学习在自然语言处理领域的起源。他们提出的词的向量化表示(Distributed representation of word,word embedding)取代了传统的one-hot表示。word embedding的优势在于避免了one-hot表示带来的维度灾难,提供了one-hot表示无法表达的词与词之间的相似度信息。同时该学习过程是无监督的,这意味着如果提供足够多的数据,这种方法将能够学习到语义信息更丰富的向量表示。
Bespalov利用深度神经网络构建了一个统一的有辨识能力的框架,该框架能够预测隐层空间和分类函数的参数并在在线产品评价分析中取得了出色的成果。Socher等人提出了半监督的循环自动编码机有效地预测了文本中的情感分布。Lai等人使用循环神经网络的架构来获得上下文的信息,相对于传统的基于窗口的神经网络在性能上获得了很大的提升。唐等人提出了融合了卷积神经网络和GRU单元的网络架构,成功地同时发挥出二者的优势。
现有技术在进行文本情感极性分析时,提取的特征无法同时包含语义信息、句法信息和情感信息,因此提取的结果均不够准确。
发明内容
本发明所要解决的技术问题是提供一种文本情感分析处理方法和系统。
本发明解决上述技术问题的技术方案如下:一种文本情感分析处理方法,适于在计算设备中执行,包括如下步骤:
步骤S1:根据分词工具将采集的文本进行分词处理,得到文本分词;
步骤S2:根据词向量工具将得到的文本分词进行词向量训练,得到文本分词的二进制文件,所述二进制文件中包括文本分词的词向量;
步骤S3:根据依存句法分析方法从所述二进制文件中提取情感特征词组,并从情感特征词组中获取句法特征信息,并根据情感词典获取所述情感特征词组的情感特征信息;
步骤S4:将所述句法特征信息和情感特征信息进行特征融合,得到含有句法及情感信息的文本特征;
步骤S5:将所述二进制文件中的词向量与所述情感特征信息进行融合,得到含有情感信息的词向量;
步骤S6:建立卷积神经网络,通过卷积神经网络对所述含有情感信息的词向量进行提取,得到含有情感信息的语义特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710313628.0/2.html,转载请声明来源钻瓜专利网。