[发明专利]一种应用于文本数据的情感分析方法有效
申请号: | 201811400464.6 | 申请日: | 2018-11-22 |
公开(公告)号: | CN109543038B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 朱仲书 | 申请(专利权)人: | 华西证券股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2415;G06F18/214;G06N3/0464;G06F40/284 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 戴勇灵 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 文本 数据 情感 分析 方法 | ||
本发明公开了一种应用于文本数据的情感分析方法,其特征在于,所述方法包括如下步骤:S1:构造若干标记函数,对每条输入文本数据进行情感类别的标注,情感类别分为被划分为三类即负面情感数据类、中性情感数据类、正面情感数据类;S2:定义标记函数的先验概率以及相互关系,标记函数的先验概率用于表示该标记函数输出的情感类别标注的置信度;S3:令待标记的文本数据条数为D,步骤S1中的标记函数综述为N,对每一条文本数据都采用N个标记函数进行标记,得到D*N的标记矩阵Λ;S4:将步骤S2中定义的标记函数先验概率与相互关系,以及步骤S3中得到的标记矩阵Λ作为输入导入到Data Programing算法框架中进行学习,得到输出为文本数据的分类概率。
技术领域
本发明涉及一种计算机领域中的数据挖掘技术,具体涉及一种应用于文本数据的情感分析方法。
背景技术
随着移动互联网的快速发展,新闻咨询类的信息也呈现几何式的增长,如何快速的了解某个领域的新闻的整体观点趋势是值得研究的话题,以财经类新闻为例,财经新闻很多时候体现了官方或者机构对某个事件或者行业等的认识,相对用户的观点来说更加客观且可靠,通过分析某个行业板块的新闻的情绪倾向,对于研究者和投资者进行行业分析及投资计划可以做出重要的辅助决策。同时,对于新闻内容的情感分析也可以更加有效的对新闻进行监控和管制,是值得研究的一个方向。
情感分析是根据文本内容判断其情感倾向的技术,现有的实现方式大致可以划分为两类:(1)基于有监督算法的分类技术,如支持向量机、卷积神经网络、循环神经网络等[Kim Y.Convolutional neural networks for sentence classification[J].arXivpreprint arXiv:1408.5882,2014.][Lai S,Xu L,Liu K,et al.RecurrentConvolutional Neural Networks for Text Classification[C]//AAAI.2015,333:2267-2273.],(2)基于无监督/弱监督算法的分类技术,如基于规则与情感词典的方式、基于情感词向量的方式[李涵昱,钱力,周鹏飞.面向商品评论文本的情感分析与挖掘[J].情报科学,2017,35(1):51-55.][伍星,何中市,黄永文。基于弱监督学习的产品特征抽取[J]。计算机工程,2009,13:199-201][赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.][]
第(1)类算法的原理是基于有标注的情感分类数据训练分类器模型,并利用该模型预测输入文本的情感类别。算法的优点是准确率高,基于神经网络结构的分类器可以采用端到端的方式进行训练,基本不需要人工提取特征的参与。其缺点主要在于模型的训练需要大量标注数据,这类标注数据的获取存在成本高、周期长等问题。
第(2)类算法主要基于人工预定义规则与统计分析技术实现,也可以结合表示学习方法实现自动特征提取。算法的优点是无需标注数据,可以自动从海量无标记数据中抽取信息实现情感分析功能。其缺点主要在于性能较差,与第(1)类算法相比在准确率和召回率上都有较大差距。
发明内容
本发明所要解决的技术问题是标注数据的获取存在成本高、周期长等问题,性能较差,其算法相比在准确率和召回率上都有较大差距基于自动数据标注系统与分类器算法实现的情感分析技术,旨在克服前述第(1)类算法中标记数据难以获取以及第(2)类算法中性能较低的缺点,目的在于提供一种应用于文本数据的情感分析方法,解决上述的问题。
本发明通过下述技术方案实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华西证券股份有限公司,未经华西证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811400464.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置