[发明专利]一种基于轮盘赌属性选择的文本情感分类集成系统有效
| 申请号: | 202011640409.1 | 申请日: | 2020-12-31 |
| 公开(公告)号: | CN112667817B | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 张忠良;张晨玥;雒兴刚;蔡灵莎;苑嘉航 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
| 代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 轮盘 属性 选择 文本 情感 分类 集成 系统 | ||
本发明涉及数据挖掘及产品技术领域,尤其涉及一种基于轮盘赌属性选择的文本情感分类集成系统,包括以下步骤:S1:获取在线文本和对应的情感类别数据;S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;S6:集成后的系统通过聚合策略得到情感类别预测结果。本发明可以有效解决多分类问题模型复杂,难于求解的问题。
技术领域
本发明涉及数据挖掘及产品技术领域,尤其涉及一种基于轮盘赌属性选择的文本情感分类集成系统。
背景技术
随着信息技术和移动通讯技术的飞速发展,上网的人越来越多。据统计,全球已有超过46亿互联网用户,互联网用户数量继续快速增长。很多互联网用户会在各种网站上发布在线文本来表达他们对社会问题的意见,分享他们对产品或服务的体验。这些在线文本所代表的人们的态度可以对政府、公司的决策产生较大的影响。因此,分析在线文本的情感类别是一件有意义的事情。
为了处理浩如烟海的在线文本,我们采用数据挖掘的方式对在线文本进行处理和分类。但原始文本中所含的信息量过于庞大,内容太多冗杂,需要从中提取出更有用的关键词以更好的分析相应的情感信息。文本的情感分类最常用的是正向和负向的两分类,但这在实际应用之中过于绝对,不适合对人类复杂的情感进行简单而过于绝对的判断。因此多类别文本情感分类对文本更具有实际意义。然而人类的情感复杂多样,所撰写的文本内所包含的情感也涉及到多个类别。现有的分类器在处理多分类问题时往往不能获得预期的效果。将复杂的多分类问题分解成多个一对一的子问题进行处理是数据挖掘领域针对解决多分类问题的有效途径。而对于单个问题,集成学习通过构建并结合多个分类器来完成分类任务,通常可以获得比单一分类器显著优越的性能。
综上所述,本发明利用数据挖掘技术结合文本情感分类系统,将文本情感分类中涉及的多分类问题分解成多个便于建模的两分类问题,然后对每个子问题分别建立多个分类器进行集成,接着采用聚合策略,如投票法、加权投票法,将两类分类器组合成多分类器,提出了一种基于轮盘赌属性选择的文本情感分类集成系统。
发明内容
为了解决上述技术问题,本发明设计了一种基于轮盘赌属性选择的文本情感分类集成系统。
为实现以上技术目的,本发明采用以下技术方案::
一种基于轮盘赌属性选择的文本情感分类集成系统,包括以下步骤:
S1:获取在线文本和对应的情感类别数据;
S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;
S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;
S6:集成后的系统通过聚合策略得到情感类别预测结果。
进一步的,步骤S1包括有:选定研究对象,获取相应的在线文本内容和对应的情感类别标签。
进一步地,步骤S2包括以下步骤:
S21:使用词袋法将获取的在线文本内容转化成特征向量;
S22:使用统计方法进行预处理,如使用词频-逆向文件频率(TF-IDF)等方法,TF-IDF的计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011640409.1/2.html,转载请声明来源钻瓜专利网。





