[发明专利]一种句子级情感分类方法及装置有效
申请号: | 201310445953.4 | 申请日: | 2013-09-26 |
公开(公告)号: | CN103514279A | 公开(公告)日: | 2014-01-15 |
发明(设计)人: | 李寿山;朱珠;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 句子 情感 分类 方法 装置 | ||
技术领域
本申请涉及自然语言处理及机器学习领域,特别涉及一种句子级情感分类方法及装置。
背景技术
随着互联网的快速发展,互联网所倡导“以用户为中心,用户参与”的开放式构架理念,使得互联网用户由被动地接受互联网信息向主动创造互联网信息转变。因此,互联网(如博客和论坛)上产生了大量用户参与的、对于诸如人物、事件、产品等有价值的评论信息,这些评论信息表达了用户的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。用户可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。越来越多的用户乐于在互联网上分享自己的观点或体验,导致评论信息量迅速增加,仅靠人工的方法难以应付网上海量信息的收集和处理,因此文本情感分析技术应运而生。
文本情感分析技术利用计算机快速获取和整理相关评价信息,其可以对带有情感色彩的主观性文本进行分析、处理、归纳和推理。
情感分类是文本情感分析技术的一项子任务,其利用底层情感信息抽取的结果将情感文本分为若干情感类别,如分为褒贬两类或者其他更细致的情感类别。
目前,基于计算机的情感分类,主要对篇章级文本进行分类,对句子级文本进行分类则主要采用人工逐句标注的方式,但是采用人工逐句标注的方式对句子级文本进行分类,效率低,且由于需要支付人工费,因此长期使用人工逐句标注的方式,投资大,成本高。
由上可见,采用人工逐句标注的方式对句子级文本进行分类,存在效率低,投资大,成本高的缺点。
发明内容
为解决上述技术问题,本申请实施例提供一种句子级情感分类方法及装置,以达到提高工作效率,不需要支付人工费,降低了成本的目的,技术方案如下:
一种句子级情感分类方法,包括:
获取预设句子级情感分类单元;
利用所述预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类;
其中,所述预设句子级情感分类器的获取过程,包括:
分别获取标记为正、负和客观的篇章级文本;
对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;
利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。
优选的,所述对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本的过程,包括:
确定所述标记为正的篇章级文本、所述标记为负的篇章级文本、所述标记为正的篇章级文本中的句子文本和所述标记为负的篇章级文本中的句子级文本为二部图的文档向量;
确定所述正篇章级文本中的词语和所述负篇章级文本中的词语为二部图的词向量;
计算任意一个文档向量到该文档向量所包含的词向量的词转移概率;
依据所述词转移概率,计算任意一个文档向量到任意一个文档向量的文档转移概率;
依据每个文档转移概率和二部图的标签传播算法,计算每个句子级文本对应的正句子级概率和每个句子级文本对应的负句子级概率;
比较所述正句子级概率和负句子级概率的大小;
在比较结果为所述正句子级概率大于所述负句子级概率的情况下,确定该句子级文本的类别为正;
在比较结果为所述负句子级概率大于所述正句子级概率的情况下,确定该句子级文本的类别为负;
确定类别为正的句子级文本为正训练样本,确定类别为负的句子级文本为负训练样本;
对所述标记为客观的篇章级文本中的句子级文本进行人工标注,确定类别为客观的句子级文本,并确定类别为客观的句子级文本为客观训练样本。
优选的,利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元的过程,包括:
确定所述正、负和客观训练样本中包含的词语为特征值;
依据公式分别计算每个特征值在a分别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率,其中,所述b为特征值,P()为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,λi为特征函数值fi(a,b)的权值且相同b对应的不同特征函数值的权值相同,为对每个特征值对应的k个特征函数值进行求和的函数,K为不小于1的整数,为对a为不同值时对应的数据进行求和的函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310445953.4/2.html,转载请声明来源钻瓜专利网。