[发明专利]一种获取语句情感倾向性的方法及系统在审
| 申请号: | 201410038695.2 | 申请日: | 2014-01-26 |
| 公开(公告)号: | CN104809128A | 公开(公告)日: | 2015-07-29 |
| 发明(设计)人: | 韦向峰;张全;黄曾阳;袁毅;池毓焕 | 申请(专利权)人: | 中国科学院声学研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京法思腾知识产权代理有限公司 11318 | 代理人: | 杨小蓉 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 获取 语句 情感 倾向性 方法 系统 | ||
技术领域
本发明涉及文本分析领域,特别涉及一种获取语句情感倾向性的方法及系统。
背景技术
自然语言的文字文本是人们之间进行沟通交流的重要工具。互联网上的聊天文本、博客、微博、论坛帖子及回复文本等多种形式文本中都包含有发言者或文章作者的情感倾向性,有些文字则描述了评价者对评价对象的情感和态度,分析和获取这些文本中的情感倾向性成为国家安全、舆情分析和社会管理的迫切需求。文本情感倾向性分析的目的,就是获取文本中观点持有者对某一评价对象的情感倾向性。因此,文本的情感倾向性包含以下几个要素:评价者、评价对象、倾向性态度。词语和语句都是构成文字文本的基本单位,获取词语和语句的情感倾向性是文本倾向性分析的重要基础。词语的情感倾向性获取已经有很多较成熟的方法并建立了相关的极性词典,而语句的情感倾向性还没有很好的方法。
语句情感倾向性分析的基本原理是利用计算机分析文本中的语句结构、词语及其内在关系,获得语句中评价者对于某些评价对象的一种情感倾向性。其实现基础是极性词典,极性词典含有如“很好、赞同、很差、缺陷”等具有明显倾向性和评价态度的极性词语,以及与极性词语相关的知识描述。有了极性词典以后,就可以从语句中找出极性词语,然后以极性词语为中心,分析极性词语周围的文本,获得极性词语所关联的评价对象和评价者,从而确定出语句中评价者对于评价对象的倾向性态度。
在上述基本实现原理的基础上,现有技术中的文本情感倾向性分析方法分为两类:机器学习方法和规则方法。机器学习方法通过已经标注好极性词语、评价对象、评价者、倾向性态度的文本进行训练,得到统计模型的参数,再用训练好的统计模型去分析新的文本,常见的模型和方法有Boosting、SVM(支持向量机)、CRF(条件随机场)和最大熵模型等。规则方法主要是根据语法理论分析极性词语所在的语句,得到词语的句法成分,根据一定的评价模式或规则确定评价者、评价对象和倾向性态度,主要用到词语词性、句法主谓宾结构、推理规则等知识。
上述二类方法都有各自的缺陷。机器学习方法需要大量的、标注好的训练语料文本,增加了前期准备成本。规则方法中使用传统的主谓宾语法结构理论还无法获得语句中准确的语义关系,因而只能获得准确率不高的情感倾向性分析结果。
发明内容
本发明的目的在于,为克服上述问题,本发明提供了一种获取语句情感倾向性的方法及系统。
为实现上述目的,本发明提供一种获取语句情感倾向性的方法,所述方法包含:
步骤101)将语句切分为词语,获得词语的概念类别;
步骤102)根据词语的概念类别得到包含动态“v”概念的特征语义块和不包含动态“v”概念的广义对象语义块,依据语句中的特征语义块和广义对象语义块切分语句,得到语句的语义块切分候选集合;
步骤103)根据语义块切分候选集合包含的特征语义块的核心词语的概念类别获得语句的概念类别候选集合;
步骤104)对语句的概念类别候选集合和语义块切分候选集合进行句类检验,获得唯一与语句对应的句类表达式和语义块切分;
步骤105)将得到的语句的唯一的句类表达式、语义块切分和语句中的极性词语映射到倾向性评价模型,根据倾向性评价模型获得语句的情感倾向性。
可选的,上述倾向性评价模型为二元模型或三元模型;
所述二元模型的形式为“A B”或“B A”,且所述二元模型的情感倾向性与极性词语B的极性一致,其中,A是评价对象,B是极性词语;
所述三元模型的形式为“C X D”、“C D X”、“D X C”或“D C X”,且所述三元模型对评价对象D的情感倾向性与极性词语X的极性一致,其中“C”是评价者,“X”是极性词语,“D”是评价对象。
可选的,采用如下步骤获得语句的语义块切分候选集合:
步骤2-1-1)根据语句中各词语的概念类别,找出语句中用于表示语言逻辑虚词的“l”类概念以及用于表示动态概念的“v”类概念;
步骤2-1-2)对于语句中得到的多个“v”类概念,逐个进行如下操作:如果其前后概念符合预先制定的排除规则的条件,那么去除该概念的“v”类概念属性;
步骤2-1-3)对于进行排除操作后剩下的多个“v”类概念,按照优选规则计算出每一个“v”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队,得到“v”类概念的候选集合;
步骤2-1-4)根据特征语义块的构成规则,把“v”类概念与前后的修饰概念合并得到特征语义块EK,并得到特征语义块EK的候选集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410038695.2/2.html,转载请声明来源钻瓜专利网。





