[发明专利]分类器的构建方法及装置、中文文本情感分类方法及系统无效
申请号: | 201210556446.3 | 申请日: | 2012-12-19 |
公开(公告)号: | CN103020249A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 李寿山;张小倩;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 构建 方法 装置 中文 文本 情感 系统 | ||
技术领域
本发明涉及自然语言处理及模式识别技术领域,尤其涉及一种分类器的构建方法及装置、中文文本情感分类方法及系统。
背景技术
随着Web2.0的蓬勃发展,互联网上产生了大量大众对于人物、事件、产品的等带有感情色彩的评论信息,用户通过浏览这些评论信息可以了解大众舆论对于某一事件或产品的看法,由于评论信息的信息量较大,用户如果单纯地依靠人工去收集和整理,会浪费大量的时间和精力,因此,迫切需要利用计算机帮助用户快速获取和整理这些评论信息,文本情感分析技术应运而生。
所谓文本情感分析,就是利用计算机帮助用户快速获取、整理和分析评论信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,文本情感分类是文本情感分析的一项基本内容,其按不同的粒度可分为句子级、篇章级等,对于句子级和篇章级,文本情感分类是指将文本分为正面文本和负面文本,例如,“我很喜欢这个产品”,通过文本情感分类,这句话将被分类为正面文本,而“这本书是在太差了”将被分类为负面文本。
目前,常用的文本情感分类方法是基于监督方法的,该方法用领域被标记的数据训练特定领域的分类,这种方法虽然取得了较好的分类效果,但由于其需要大量人工标注语料库,因此,构建分类器的时间较长,而且,如果换一个领域就必须重新标注语料,即领域依赖性较大。
发明内容
有鉴于此,本发明提供了一种分类器的构建方法及装置、中文文本情感分类方法及系统,用以解决现有的分类方法构建分类器的时间较长且应用领域依赖性较大的问题。其技术方案如下:
一种分类器的构建方法,包括:
获取待标注样本集并从所述待标注样本集中获取一个待标注样本,其中,所述待标注样本集包括至少两个待标注样本;
查找所述待标注样本中的情感词,并获取每个情感词的情感极性,其中,所述情感极性包括正面和负面;
转变所述待标注样本中符合情感极性转变规则的情感词的情感极性;
统计所述待标注样本中情感极性为正面的情感词的数量和情感极性为负面的情感词的数量;
根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性,得到标注样本;
依据所述标注样本利用自学习的方法对所述待标注样本集中其它待标注样本进行标注,得到标注样本集;
利用所述标注样本集中的标注样本构建最大熵分类器。
优选地,转变所述待标注样本中符合情感极性转变规则的情感词的情感极性包括:
如果待标注样本中的情感词所在的句子中出现了否定关键词,则转变该情感词的情感极性;
如果待标注样本中的情感词所在的句子的下一句或下一段落出现了转折关键词,则转变该情感词的情感极性;
和/或,如果待标注样本中的情感词所在的句子出现了能愿关键词,则转变该情感词的情感极性。
优选地,所述根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性包括:
如果情感极性为正面的情感词的数量与情感极性为负面的情感词的数量的差值大于设定阈值,则确定所述待标注样本的情感极性为正面;
如果情感极性为负面的情感词的数量与情感极性为正面的情感词的数量的差值大于所述设定阈值,则确定所述待标注样本的情感极性为负面。
优选地,根据所述情感极性为正面的情感词的数量与情感极性为负面的情感词的数量确定所述待标注样本的情感极性,得到标注样本包括:
利用所述标注样本构建最大熵分类器;
利用所述最大熵分类器对所述待标注样本集中其它待标注样本进行标分类,得到分类结果;
根据所述分类结果确定每个待标注样本的情感极性,得到标注样本集。
一种中文文本情感分类方法,包括:上述的分类器的构建方法,还包括:
利用构建的最大熵分类器对待分类的中文文本进行分类。
一种分类器的构建装置,包括:获取单元、查找单元、极性转变单元、统计单元、确定单元、自学习单元和分类器构建单元;
所述获取单元,用于获取待标注样本集并从所述待标注样本集中获取一个待标注样本,其中,所述待标注样本集包括至少两个待标注样本;
所述查找单元,用于查找所述待标注样本中的情感词,并获取每个情感词的情感极性,其中,所述情感极性包括正面和负面;
所述极性转变单元,用于转变所述待标注样本中符合情感极性转变规则的情感词的情感极性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210556446.3/2.html,转载请声明来源钻瓜专利网。