[发明专利]一种面向中文Web评论的文本情感分类方法无效

申请号：	201310050250.1	申请日：	2013-02-08
公开（公告）号：	CN103116637A	公开（公告）日：	2013-05-22
发明（设计）人：	李千目;倪铭;印杰;侯君	申请（专利权）人：	无锡南理工科技发展有限公司;江苏警官学院
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	214192 江苏省无锡市锡***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向中文 web 评论文本情感分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据处理技术领域，具体地涉及一种面向中文Web评论的文本情感分类方法。

背景技术

文本作为一种重要的信息交互媒介，主要的功能是传情达意，基于内容的研究已经很成熟，近些年来越来越多的研究开始集中到“传情”上即情感分析，主要的研究内容包括词语的语义倾向识别、基于情感的文本分类、观点提取、主观性分析等。对一篇文档而言，能对其语义倾向起到决定性作用的主要是构成这篇文档所用的词语。所以，对文本进行基于情感的文本分类的基础是判定词的语义倾向。但是目前，不论是英语还是汉语，都没有一个完整的涵盖词语语义倾向的词典，也不可能有这样的一个完备的词典，因为很多的词语在不同语境中它的语义倾向也不尽相同。Hatzivassiloglou等根据词语之间关系来判定其语义倾向，他们注意到形容词的语义倾向受连接它们的连接词“and”、“but”等约束，知道其中一个词的语义倾向，就可以推测出另一个。如“excellent and X”，可以推测X也是褒义的。根据语言学上连接词对语义倾向约束性的分析，他们提出了一种四步法的有监督学习算法来判断一个形容词的语义倾向。Turney在其论文中介绍了两种利用词语与具有明显语义倾向的种子词语之间统计关系来自动识别词语语义倾向的方法: PMI2IR和LSA。Esuli 通过对一个词语的注释(从词典中获得)进行训练和分类，从而判断其他词语的语义倾向。

基于情感的文本分类研究大多是通过统计正面或负面语义倾向的词语特征数目来对文本进行分类。如Turney就使用一无指导学习方法，利用前面提到的PMI2IR方法计算出文本中出现的符合规则的短语的语义倾向，通过对文档中所有短语的语义倾向的平均值的正负来判断文档描述的对象是否值得推荐。PangBo最早利用机器学习方法来解决基于情感的文本分类问题，应用朴素贝叶斯、最大熵、SVM对电影评论进行分类。SVM在几种分类方法中效果最好，分类准确率最高达到约80%。

事实上，对一篇文章而言，它表达的情感的正面或负面是通过主观语句体现出来的，如“产品质量好!”。但是像“它的售价刚好是50元!”这样的客观语句，虽然有“好”这一特征词，但并不应该能起到任何作用。但是如果能区分一篇文章中的主观语句和客观语句，只对主观语句进行特征选择，会对分类的准确率有很大提高。Bruce、Wiebe等利用贝叶斯分类器对句子的主客观性进行分类。PangBo把主客观语句分类转换成求图的最小截问题，实现一个Cut2based分类器，对主客观语句进行分类。

近年，基于情感的文本分类逐渐被应用到更多的领域中。例如，微软公司开发的商业智能系统Pulse，它能够从大量的评论文本数据中，利用文本聚类技术提取出用户对产品细节的看法;产品信息反馈系统OpinionObserver，利用网络上丰富的顾客评论资源，对评论的主观内容进行分析处理，提取产品各个特征及消费者对其的评价，并给出一个可视化结果；Sanjiv从网络上的股评信息中获取某只股票的市场评价，对股票的价格进行预测。

中文的基于情感的文本分类研究还不是很多。基于HowNet，朱嫣岚在其论文中提出了两种词语语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。Yuen通过计算词语和具有强烈感情色彩的语素或单个汉字之间在LI2VAC文集上的统计关系来判定词语语义倾向。T’sou利用词语的语义倾向来计算新闻文本的语义倾向，衡量公众对名人的评价。

发明内容

1、本发明的目的。

本发明的目的在于提出一种面向中文Web评论的文本情感分类方法，有效地应用于中文评论文本的情感分析。

2、本发明所采用的技术方案

1.一种面向中文Web评论的文本情感分类方法，整个过程可分为两个部分：训练过程和分类过程；

训练过程按照以下步骤进行：

步骤一、训练文本预处理；

步骤二、特征选择：用频数等统计量来计算文本中的词条在类别中的分布情况，经过特征选择，得到该类别的局部特征，所有类别的局部特征词集合的并集构成训练集的全局特征词集合；

步骤三、文本的向量化表示：将每个类别映射到全局特征词集合上，进行向量化表示，便可得到类别的特征向量，特征向量包括权重和特征词个数；

步骤四、训练分类器。

分类过程按照以下步骤进行：

测试文本预处理→特征选择→分类器分类→输出分类结果，具体处理如下: