[发明专利]一种可避免过拟合的文本分类系统在审
申请号: | 201810447545.5 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108647325A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 丰小月;丰超;时小虎 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 绍兴市寅越专利代理事务所(普通合伙) 33285 | 代理人: | 陈彩霞 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拟合 文本分类模块 文本分类系统 判断模块 分类准确率 文本 分类 | ||
本发明涉及一种可避免过拟合的文本分类系统,包含过拟合率判断模块、文本分类模块,过拟合率判断模块用于判断过拟合的严重程度,文本分类模块负责对文本进行分类;本发明的方法对过拟合问题进行了定量描述,使用了描述过拟合问题的参数RO,RO为过拟合率,用于描述过拟合问题是否发生、严重程度,并且本方法还针对提高过拟合问题中的分类准确率,提出新的方法。
技术领域
本发明涉及机器学习领域,涉及一种可避免过拟合的文本分类系统。
背景技术
现今,过拟合在机器学习是个很严重的问题,产生的原因为,在实际使用中,因为大部分文本分类方法都采用了向量空间模型,即把每一篇文档看作一个词袋,每个词作为特征。必然会导致冗余向量的产生,并且会产生一个高维稀疏矩阵。但是过分地追求训练集的准确率,会加大模型的复杂性,学习无法学习趋势,而只是将训练数据中的非可预测的特征。如果数据未出现,表现性变差,成为了过拟合。
发明内容
有鉴于此,本发明提供一种解决或部分解决上述问题的可避免过拟合的文本分类系统。
为达到上述技术方案的效果,本发明的技术方案为:一种可避免过拟合的文本分类系统,包含:
文本分类系统包含过拟合率判断模块、文本分类模块;
过拟合率判断模块用于判断过拟合的严重程度,使用过拟合率RO来判断,
过拟合率RO的定义如下:
其中,o表示测试误差,z表示训练误差,u表示训练集的规模或者迭代次数;过拟合率的正负由测试误差决定,并且与测试误差的正负相反;当过拟合率小于零时,随着训练集的规模或者迭代次数的增大,测试误差o也增大了,过拟合率RO的值越小,那么过拟合的程度越严重;如果需要进一步降低测试误差o,通过增加补偿项以增大训练误差z以避免过拟合;当过拟合率等于0,训练集合增加,测试误差不再变化;
过拟合率大于零,表示随着训练规模的增大,测试误差降低;当过拟合率维持正数,不再存在过拟合的问题;训练样本等同于训练样本集合;
文本分类模块负责对文本进行分类,分为两步,第一步,预处理过程,第二步,具体的处理过程;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810447545.5/2.html,转载请声明来源钻瓜专利网。