[发明专利]文本情感倾向性分析方法有效
申请号: | 200910083522.1 | 申请日: | 2009-05-08 |
公开(公告)号: | CN101882136A | 公开(公告)日: | 2010-11-10 |
发明(设计)人: | 吴琼;谭松波;程学旗 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 情感 倾向性 分析 方法 | ||
技术领域
本发明涉及模式识别领域,具体涉及一种文本分析方法。
背景技术
论坛、博客等网络交流平台的快速发展使得网上存在大量带有情感倾向性的文本。如何从大规模富含情感信息的文本中快速进行倾向性分析,成为越来越引起广泛关注的研究问题。文本情感倾向性分析研究就是在这样的背景下开展起来的,它就是对整篇文本所体现出的情感进行判断,也就是对文本中的主观信息进行判断。
随着信息量的急速增加、新领域的不断涌现,人们需要在越来越多的新领域里进行倾向性分析,而在新领域里重新进行人工标注是个费时费力的事情。因此要尽量基于已经标注好的数据对新领域进行分析,这使得跨领域的倾向性分析具有重大意义。
文本倾向性分析具有很强的领域依赖性。训练域里有强烈倾向性的词在测试域里不再有强烈倾向性,反之亦然。例如,“便携的”在电子评论里就是一个具有正面倾向性的词,而在酒店评论里就不具有强烈的倾向性。当用来训练分类器的已判断倾向性的集合和待判断倾向性的集合不是同一个领域的时候,例如,已知酒店评论数据集的倾向性需要判断电子评论数据集的倾向性的情况,传统的分类方法的效果就变得很差。
发明内容
本发明目的在于提供一种精度高的文本情感倾向性分析方法。
根据本发明的一个方面,提供了一种文本情感倾向性分析方法,包括下列步骤:
1)根据训练文本的标签确定测试文本的初始情感分;
2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化;
3)当所述迭代结束时,根据所述计算的结果判别所述测试文本的情感倾向性。
在上述方法中,所述步骤1)还包括根据训练文本的标签确定训练文本的初始情感分;
所述步骤2)进一步包括:
21)基于所述图排序算法,利用所述训练文本的初始情感分计算所述测试文本的情感分的第一分量;
22)基于所述图排序算法,利用所述测试文本的初始情感分计算所述测试文本的情感分的第二分量;
23)利用所述两个分量迭代计算所述测试文本的情感分并归一化。
在上述方法中,所述步骤21)进一步包括:
以所述测试文本和训练文本为结点、所述训练文本和所述测试文本间的内容相似度为边建立图模型;
根据所述图模型构建联接矩阵并归一化;
将所述归一化的联接矩阵的每一行降序排列;
根据所述降序排列后的联接矩阵的每一行的前K1个元素对应的训练文本的情感分计算所述测试文本的情感分的第一分量,其中K1的取值范围为[1,训练文本个数]。
在上述方法中,所述步骤22)进一步包括
以所述测试文本为结点、所有测试文本间的内容相似度为边建立图模型;
根据所述图模型构建联接矩阵并归一化;
将所述归一化的联接矩阵的每一行降序排列;
根据所述降序排列后的联接矩阵的每一行的前K2个元素对应的测试文本的情感分计算所述测试文本的情感分的第二分量,其中K2的取值范围为[1,测试文本个数]。
在上述方法中,所述步骤1)包括:根据所述训练文本的标签对所述测试文本进行分类,根据所述分类确定所述测试文本的初始情感分。
本发明提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。
附图说明
图1是根据本发明的优选实施例的文本情感倾向性分析方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的文本情感倾向性分析方法进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910083522.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:极细同轴线的末端处理方法及末端处理构造
- 下一篇:一种新型钻机底座的下层结构