[发明专利]一种基于轮盘赌属性选择的文本情感分类集成系统有效
| 申请号: | 202011640409.1 | 申请日: | 2020-12-31 |
| 公开(公告)号: | CN112667817B | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 张忠良;张晨玥;雒兴刚;蔡灵莎;苑嘉航 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
| 代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 轮盘 属性 选择 文本 情感 分类 集成 系统 | ||
1.一种基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,包括以下步骤:
S1:获取在线文本和对应的情感类别数据;
S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;
S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;
S6:集成后的系统通过聚合策略得到情感类别预测结果;
步骤S3具体是:将预处理后文本的特征向量涉及到的n分类的多分类问题,转化为个一对一问题;
步骤S4包括以下步骤:
S41:对每个一对一问题,计算每个词的信息增益IG,IG的计算方法为:
其中,X表示特征;n表示类别总数;i表示第i个类别;Pi表示X取第i个类别的概率;
对于系统中所含变量类别C来说,分类系统的熵表示为:
C取值为C1,C2,……,Cn,n为类别总数;
其中,Ci表示第i个变量类别;P(Ci)表示类别为Ci的概率;
当特征X被固定时,特征X有x1,x2,……,xi值,其条件熵为:
由此得到固定词T时系统的条件熵为:
其中,t代表词T出现,代表词T不出现;P(t)表示词T出现的概率;表示词T不出现的概率;H(C|t)表示词T出现时系统的条件熵;表示词T不出现时系统的条件熵;
特征词T给系统带来的信息增益为:
S42:对得到的特征的信息增益值a次使用轮盘赌做b次不放回抽样,每个特征被选中的可能性为:
共有m个特征,bm;
其中,Ti表示第i个词;IG(Ti)表示第i个词的信息增益值;
从而得到a种不全相同的数据集。
2.根据权利要求1所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S2包括以下步骤:
S21:使用词袋法将获取的在线文本内容转化成特征向量;
S22:使用统计方法进行预处理;其中,统计方法为词频-逆向文件频率TF-IDF;
TF-IDF的计算方法如下:
TF-IDF=TF*IDF (3)。
3.根据权利要求1所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S5包括以下步骤:
S51:使用a种不全相同的数据集训练c种分类器;
S52:挑选出a个性能最好的基分类器;共得到个基分类器,并集成形成一个完整的系统。
4.根据权利要求3所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S6包括以下步骤:
S61:输入一条文本内容到集成后形成的系统中,得到个结果;
S62:通过投票法或加权投票法,得到一个n×n的得分矩阵:
其中,
对每个rij,vi为在分类第i类和第j类的子问题中所训练的a个分类器中预测结果为第i类的次数,且有:
rij+rji=1
S63:根据得分矩阵从而输出情感类别预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011640409.1/1.html,转载请声明来源钻瓜专利网。





