[发明专利]一种句子级情感分类方法及装置有效
申请号: | 201310445953.4 | 申请日: | 2013-09-26 |
公开(公告)号: | CN103514279A | 公开(公告)日: | 2014-01-15 |
发明(设计)人: | 李寿山;朱珠;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 句子 情感 分类 方法 装置 | ||
1.一种句子级情感分类方法,其特征在于,包括:
获取预设句子级情感分类单元;
利用所述预设句子级情感分类单元对已标注情感类别的篇章级文本中的句子级文本进行分类;
其中,所述预设句子级情感分类器的获取过程,包括:
分别获取标记为正、负和客观的篇章级文本;
对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本;
利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元。
2.根据权利要求1所述的方法,其特征在于,所述对拆分所述篇章级文本获取到的句子级文本按照正、负和客观类型进行分类标记,得到对应的正、负和客观训练样本的过程,包括:
确定所述标记为正的篇章级文本、所述标记为负的篇章级文本、所述标记为正的篇章级文本中的句子文本和所述标记为负的篇章级文本中的句子级文本为二部图的文档向量;
确定所述正篇章级文本中的词语和所述负篇章级文本中的词语为二部图的词向量;
计算任意一个文档向量到该文档向量所包含的词向量的词转移概率;
依据所述词转移概率,计算任意一个文档向量到任意一个文档向量的文档转移概率;
依据每个文档转移概率和二部图的标签传播算法,计算每个句子级文本对应的正句子级概率和每个句子级文本对应的负句子级概率;
比较所述正句子级概率和负句子级概率的大小;
在比较结果为所述正句子级概率大于所述负句子级概率的情况下,确定该句子级文本的类别为正;
在比较结果为所述负句子级概率大于所述正句子级概率的情况下,确定该句子级文本的类别为负;
确定类别为正的句子级文本为正训练样本,确定类别为负的句子级文本为负训练样本;
对所述标记为客观的篇章级文本中的句子级文本进行人工标注,确定类别为客观的句子级文本,并确定类别为客观的句子级文本为客观训练样本。
3.根据权利要求1所述的方法,其特征在于,利用所述正、负和客观训练样本对最大熵分类器进行训练,得到预设句子级情感分类单元的过程,包括:
确定所述正、负和客观训练样本中包含的词语为特征值;
依据公式分别计算每个特征值在a分别为+1、-1和0时,对应的正预测条件概率、负预测条件概率和客观预测条件概率,其中,所述b为特征值,P()为预测条件概率,exp()为自然数e为底的指数函数,fi()为二值特征函数,λi为特征函数值fi(a,b)的权值且相同b对应的不同特征函数值的权值相同,为对每个特征值对应的k个特征函数值进行求和的函数,K为不小于1的整数,为对a为不同值时对应的数据进行求和的函数;
利用GIS算法,调整每个特征值对应的正预测条件概率,直至每个特征值各自的正预测条件概率收敛,并将每个特征值各自收敛的正预测条件概率对应的λ作为每个特征值各自的测试正λ;
利用GIS算法,调整每个特征值对应的负预测条件概率,直至每个特征值各自的负预测条件概率收敛,并将每个特征值各自收敛的负预测条件概率对应的λ作为每个特征值各自的测试负λ;
利用GIS算法,调整每个特征值对应的客观预测条件概率,直至每个特征值各自的客观预测条件概率收敛,并将每个特征值各自收敛的客观预测条件概率对应的λ作为每个特征值各自的测试客观λ;
确定所述测试正λ、测试负λ和测试客观λ对应的最大熵分类器为预设句子级情感分类单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310445953.4/1.html,转载请声明来源钻瓜专利网。