[发明专利]一种基于轮盘赌属性选择的文本情感分类集成系统有效

专利信息
申请号: 202011640409.1 申请日: 2020-12-31
公开(公告)号: CN112667817B 公开(公告)日: 2022-05-31
发明(设计)人: 张忠良;张晨玥;雒兴刚;蔡灵莎;苑嘉航 申请(专利权)人: 杭州电子科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62
代理公司: 浙江千克知识产权代理有限公司 33246 代理人: 周希良
地址: 310018 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 轮盘 属性 选择 文本 情感 分类 集成 系统
【权利要求书】:

1.一种基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,包括以下步骤:

S1:获取在线文本和对应的情感类别数据;

S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;

S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;

S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;

S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;

S6:集成后的系统通过聚合策略得到情感类别预测结果;

步骤S3具体是:将预处理后文本的特征向量涉及到的n分类的多分类问题,转化为个一对一问题;

步骤S4包括以下步骤:

S41:对每个一对一问题,计算每个词的信息增益IG,IG的计算方法为:

其中,X表示特征;n表示类别总数;i表示第i个类别;Pi表示X取第i个类别的概率;

对于系统中所含变量类别C来说,分类系统的熵表示为:

C取值为C1,C2,……,Cn,n为类别总数;

其中,Ci表示第i个变量类别;P(Ci)表示类别为Ci的概率;

当特征X被固定时,特征X有x1,x2,……,xi值,其条件熵为:

由此得到固定词T时系统的条件熵为:

其中,t代表词T出现,代表词T不出现;P(t)表示词T出现的概率;表示词T不出现的概率;H(C|t)表示词T出现时系统的条件熵;表示词T不出现时系统的条件熵;

特征词T给系统带来的信息增益为:

S42:对得到的特征的信息增益值a次使用轮盘赌做b次不放回抽样,每个特征被选中的可能性为:

共有m个特征,bm;

其中,Ti表示第i个词;IG(Ti)表示第i个词的信息增益值;

从而得到a种不全相同的数据集。

2.根据权利要求1所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S2包括以下步骤:

S21:使用词袋法将获取的在线文本内容转化成特征向量;

S22:使用统计方法进行预处理;其中,统计方法为词频-逆向文件频率TF-IDF;

TF-IDF的计算方法如下:

TF-IDF=TF*IDF (3)。

3.根据权利要求1所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S5包括以下步骤:

S51:使用a种不全相同的数据集训练c种分类器;

S52:挑选出a个性能最好的基分类器;共得到个基分类器,并集成形成一个完整的系统。

4.根据权利要求3所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S6包括以下步骤:

S61:输入一条文本内容到集成后形成的系统中,得到个结果;

S62:通过投票法或加权投票法,得到一个n×n的得分矩阵:

其中,

对每个rij,vi为在分类第i类和第j类的子问题中所训练的a个分类器中预测结果为第i类的次数,且有:

rij+rji=1

S63:根据得分矩阵从而输出情感类别预测结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011640409.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top