[发明专利]藏文短文本情感分析方法及装置有效
申请号: | 201710631444.9 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107402917B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 闫晓东 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/40;G06K9/62 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 翟姝红;翟丽红 |
地址: | 100081 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏文 文本 情感 分析 方法 装置 | ||
本发明提供了一种藏文短文本情感分析方法及装置,属于大数据处理领域,本发明提供的方法包括:设置提取情感特征的多种特征类型;获取藏文短文本,根据预设多种特征类型从藏文短文本中自动选择藏文情感特征;利用信息增益法对该藏文短文本提取藏文情感特征;将自动选择的藏文情感特征及利用信息增益法提取的藏文情感特征进行融合处理,得到最终藏文情感特征。所述装置包括存储模块、自动匹配模块、特征提取模块和特征融合模块。本发明通过融合自动选择情感特征及利用算法抽取情感特征的方法,实现两种方式优势互补效果,从而提高藏文文本情感分析的正确率。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种藏文短文本情感分析方法及设备。
背景技术
文本情感分析(Text Sentiment Analysis),亦可称作意见挖掘(OpinionMining),是对带有情感色彩的主观文本进行分析、处理、归纳和推理的过程。这些年来,情感分析成为自然语言处理领域中的非常重要、热门的研究课题之一,同时它在数据挖掘、Web挖掘和文本挖掘领域也备受关注
目前文本情感分析成为自然语言处理领域中非常重要、热门的研究课题之一,同时它在数据挖掘、Web挖掘和文本挖掘领域备受关注,中、英文文本情感分类方面的研究相对成熟,而对于起步较晚的藏文信息,目前成熟的中英文情感分类方法无法直接应用在藏语中。
目前对于中英文的文本情感分析方法大致有两类:第一类是基于情感词典和多种特征类型的方法,通过抽取句子中出现的情感词、否定词、转折词等的极性、位置及个数等信息,依据特定语言的语法特征制定对应的情感计算多种特征类型对整个句子进行情感值得打分。如通过WordNet计算单个词的情感值,然后对待分析句子中所有带情感极性的词语进行简单的线性加权计算,最终得到该句子的情感打分,从而实现对句子情感的褒贬分类。第二类基于统计机器学习的方法,将句子情感倾向判断当作一个分类问题来处理,通过对文本的情感特征的抽取,完成文本的情感分类。如基于半监督的最大熵-朴素贝叶斯情感分类方法,跟基于监督的方法不同的是该方法只需要少量的标记语料和一些未标记的语料。
上述第一类方法依赖情感词典的规模和质量,且由于多种特征类型之间容易出现冲突,判别准确率不高;第二类方法能够适应大量、情况复杂的语料分析环境,但无法直接应用在藏文短文本情感分析中。
现有技术中对于藏文短文本情感分析的方法较少,有一种基于语义空间的藏文微博情感分析方法,其通过使用句法树生成句法结构并结合语义特征向量构建特征空间,运用K-means方法确定文本的情感倾向性,该方案通过构建情感倾向性特征的方式进行分析,分析的准确性较差。
发明内容
本发明实施例提出了一种藏文短文本情感分析方法及设备,提出利用多种特征类型自动选择情感特征及利用算法抽取情感特征相融合的方式,提高了藏文文本情感分析的正确率。
第一方面,本发明实施例提供了一种藏文短文本情感分析方法,所述方法包括:
预设情感特征的特征类型表,所述特征类型表中包括多种特征类型与藏文情感特征的对应关系;
获取藏文短文本,根据所述特征类型表从所述藏文短文本中自动选择藏文情感特征得到第一藏文情感特征集集;
利用信息增益法提取所述藏文短文本中的藏文情感特征得到第二藏文情感特征集;
将所述第一藏文情感特征集集和所述第二藏文情感特征集进行融合处理,得到最终藏文情感特征。
第二方面,本发明实施例提供了一种藏文短文本情感分析装置,所述装置包括:
存储模块,用于设置提取情感特征的特征类型表,并存储所述特征类型表,所述特征类型表中包括多种特征类型与藏文情感特征的对应关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710631444.9/2.html,转载请声明来源钻瓜专利网。