[发明专利]基于深度学习的主观性文本情感分析方法有效
| 申请号: | 201710093687.1 | 申请日: | 2017-02-21 |
| 公开(公告)号: | CN106776581B | 公开(公告)日: | 2020-01-24 |
| 发明(设计)人: | 施寒潇;厉小军;陈南南 | 申请(专利权)人: | 浙江工商大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
| 代理公司: | 33224 杭州天勤知识产权代理有限公司 | 代理人: | 胡红娟 |
| 地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 主观性 文本 情感 分析 方法 | ||
本发明公开了一种基于深度学习的主观性文本情感分析方法,包括:(1)在C&W模型的基础上,构建C&W‑SP模型,将句子的情感标签与词性标签标注于句子内,构建C&W_SPC&W‑SP模型的训练集,并利用该训练集对C&W_SP模型进行训练,得到训练集中每个词的词向量,组成词向量文件;(2)根据获得的词向量文件,利用LSTM模型构建句子向量集;(3)利用句子向量集对神经网络模型进行训练,得到情感分类模型;(4)对测试评论语句进行预处理,测试句子向量将测试句子向量输入到情感分类模型中,计算得到此段评论的情感倾向。该方法情感倾向信息、词性信息加入词语中,提高了情感分析的准确度。
技术领域
本发明属于计算机应用技术领域,具体涉及的是一种基于深度学习的主观性文本情感分析方法。
背景技术
随着互联网的飞速发展,特别是Web2.0技术的逐渐普及,广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。中国互联网络信息中心发布的《第38次中国互联网络发展状况统计报告》(CNNIC,2016)的数据显示,截至2016年6月,我国网络用户总数量已经达到7.10亿,半年共计新增网民2132万人,半年增长率为3.1%,互联网普及率为51.7%。如此庞大且快速增长的网络用户群体加上Web2.0模式的互联网应用,使网络内容的数量和网络信息的访问量都以前所未有的速度增长,互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的信息形式多种多样,如新闻、博客文章、产品评论、论坛帖子等等。
近几年,社会网络(social network)应用的推进和用户创造内容(UGC)模式的兴起,普通网民越来越成为信息内容的重要生产者。以金融信息评论为例,互联网上作为金融信息中UGC重要形式之一的用户评论,既表达了用户对证券市场的个体观点,又涵盖了用户与股票、用户与用户之间的关系,兼具内容与关联的特征,成为情感分析研究的一个新热点。目前,带有情绪信息的金融评论在互联网上呈爆炸式增长,这些情绪信息对普通投资者、公司机构和国家政府等各级别的用户都有重要意义,如何有效的将带有情绪信息的金融评论转化成有助于各类用户应用的有价值资源,已成为当前需要迫切解决的问题之一。对于主观性文本的情感分析研究正是适应这种需求,希望架设一座用户到情绪信息的桥梁,使用户能有效获取情绪信息。从实践角度而言,利用这些情绪信息一方面可以帮助金融、证券监管部门及时了解投资者的情绪变化,特别是股灾或者疯牛这样极端行情下的情绪反馈,为后续的政策引导提供线索依据;另一方面可以给出不同类别投资者的情绪指数变化曲线,同时也可与其他主要证券行情分析指数联合构建出合理的投资模型,这在一定程度上为投资者提供更全面的投资决策支持。
目前情感分析方法大致有两类。第一种是基于规则的方法。主要先根据情感词典找出文本中出现的情感词,然后进行简单的情感极性统计,根据最终得分与事先设定阈值比较得出情感极性结论,一般用于篇章级别的情感分析。第二种是基于机器学习的方法。通过对大量标注语料的训练,生成情感分类器,用来对测试文本进行分类。
(1)基于规则的方法。目前的方法主要是设计规则提取情感词和极性判定,然后对所有的情感词进行简单情感极性统计求得文本的整体情感极性,该方法更多的应用于篇章的情感分析。另外,通过计算词语的语义倾向,综合考虑极性元素分布、密度和语义强度进行情感词的扩展,进一步修正文本的整体情感极性。
(2)基于机器学习的方法。这种方法主要使用情感词、词语共现对、句法模板、主题相关特征等作为分类特征,使用基于机器学习的分类方法进行情感/倾向性分析。常用的分类方法有:中心向量分类法、KNN分类法、感知器分类法、贝叶斯分类法、最大熵分类法和支持向量机分类法等。一般过程是首先通过对训练文档进行手工标注,生产训练模型,然后进行测试文档的预测。该方法目前在句子级别的情感分析中有广泛的应用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710093687.1/2.html,转载请声明来源钻瓜专利网。





