[发明专利]一种可避免过拟合的文本分类系统在审

专利信息
申请号: 201810447545.5 申请日: 2018-05-11
公开(公告)号: CN108647325A 公开(公告)日: 2018-10-12
发明(设计)人: 丰小月;丰超;时小虎 申请(专利权)人: 吉林大学
主分类号: G06F17/30 分类号: G06F17/30;G06K9/62
代理公司: 绍兴市寅越专利代理事务所(普通合伙) 33285 代理人: 陈彩霞
地址: 130012 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 拟合 文本分类模块 文本分类系统 判断模块 分类准确率 文本 分类
【说明书】:

发明涉及一种可避免过拟合的文本分类系统,包含过拟合率判断模块、文本分类模块,过拟合率判断模块用于判断过拟合的严重程度,文本分类模块负责对文本进行分类;本发明的方法对过拟合问题进行了定量描述,使用了描述过拟合问题的参数RO,RO为过拟合率,用于描述过拟合问题是否发生、严重程度,并且本方法还针对提高过拟合问题中的分类准确率,提出新的方法。

技术领域

本发明涉及机器学习领域,涉及一种可避免过拟合的文本分类系统。

背景技术

现今,过拟合在机器学习是个很严重的问题,产生的原因为,在实际使用中,因为大部分文本分类方法都采用了向量空间模型,即把每一篇文档看作一个词袋,每个词作为特征。必然会导致冗余向量的产生,并且会产生一个高维稀疏矩阵。但是过分地追求训练集的准确率,会加大模型的复杂性,学习无法学习趋势,而只是将训练数据中的非可预测的特征。如果数据未出现,表现性变差,成为了过拟合。

发明内容

有鉴于此,本发明提供一种解决或部分解决上述问题的可避免过拟合的文本分类系统。

为达到上述技术方案的效果,本发明的技术方案为:一种可避免过拟合的文本分类系统,包含:

文本分类系统包含过拟合率判断模块、文本分类模块;

过拟合率判断模块用于判断过拟合的严重程度,使用过拟合率RO来判断,

过拟合率RO的定义如下:

其中,o表示测试误差,z表示训练误差,u表示训练集的规模或者迭代次数;过拟合率的正负由测试误差决定,并且与测试误差的正负相反;当过拟合率小于零时,随着训练集的规模或者迭代次数的增大,测试误差o也增大了,过拟合率RO的值越小,那么过拟合的程度越严重;如果需要进一步降低测试误差o,通过增加补偿项以增大训练误差z以避免过拟合;当过拟合率等于0,训练集合增加,测试误差不再变化;

过拟合率大于零,表示随着训练规模的增大,测试误差降低;当过拟合率维持正数,不再存在过拟合的问题;训练样本等同于训练样本集合;

文本分类模块负责对文本进行分类,分为两步,第一步,预处理过程,第二步,具体的处理过程;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810447545.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top