[发明专利]一种可避免过拟合的文本分类系统在审
申请号: | 201810447545.5 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108647325A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 丰小月;丰超;时小虎 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 绍兴市寅越专利代理事务所(普通合伙) 33285 | 代理人: | 陈彩霞 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种可避免过拟合的文本分类系统,包含过拟合率判断模块、文本分类模块,过拟合率判断模块用于判断过拟合的严重程度,文本分类模块负责对文本进行分类;本发明的方法对过拟合问题进行了定量描述,使用了描述过拟合问题的参数RO,RO为过拟合率,用于描述过拟合问题是否发生、严重程度,并且本方法还针对提高过拟合问题中的分类准确率,提出新的方法。 | ||
搜索关键词: | 拟合 文本分类模块 文本分类系统 判断模块 分类准确率 文本 分类 | ||
【主权项】:
1.一种可避免过拟合的文本分类系统,其特征在于,包含以下内容:所述文本分类系统包含过拟合率判断模块、文本分类模块;所述过拟合率判断模块用于判断过拟合的严重程度,可以为所述文本分类模块提供判断过拟合率的方法;所述过拟合率判断模块中使用过拟合率RO来判断,所述过拟合率RO的定义如下:
其中,o表示测试误差,z表示训练误差,u表示训练集的规模或者迭代次数;过拟合率的正负由测试误差决定,并且与测试误差的正负相反;当所述过拟合率小于零时,随着训练集的规模或者迭代次数的增大,测试误差o也增大了,所述过拟合率RO的值越小,那么过拟合的程度越严重;如果需要进一步降低测试误差o,通过增加补偿项以增大所述训练误差z以避免过拟合;当所述过拟合率等于0,训练集合再增加,测试误差不再变化;所述过拟合率大于零,表示随着训练规模的增大,测试误差降低;当所述过拟合率为正,不再存在过拟合的问题;训练集等同于训练样本集合;所述文本分类模块负责对文本进行分类,分为两步,第一步,预处理过程,第二步,具体的处理过程;在所述预处理过程中,所述文本分类模块定义所述文本分类模块的输入以及输出,所述文本分类模块的输入为训练样本集合D={(x1,y1),...,(xi,yi),...,(xm,ym)},其中,D为训练样本集合,(x1,y1),...,(xi,yi),...,(xm,ym)为训练样本,X={x1,...,xi,...,xm}为训练样本点,Y={y1,,...,yi,...,ym}为训练样本集合的类别标签,x为训练样本点,y为训练样本点的类别标签,为使用分类器后对样本点的分类结果,m为训练样本点的个数,由用户输入训练样本集合后进行计算;具有相同下标的所述训练样本点与类别标签为相互对应的,即第i个训练样本点xi的分类结果为yi,i为=1,…,m;所述文本分类模块的输出为分类器
其中,H(x)为分类器H对训练样本点x的分类结果,β(t)表示弱分类器h在第t次迭代时的权重,t表示处于第t次迭代,β表示弱分类器h的权重,I函数表示一种限定关系,限定出现在I前面的函数,将满足I函数括号内条件的、并且位置紧临I之前的函数的值输出;h(t)(x)表示弱分类器h在第t次迭代对训练样本点x的分类处理结果,k表示对分类结果的假设参数,暂时存储分类结果,T表示迭代的最大次数,为正整数;
表示将所有T次迭代的分类器的权重相加,使相加的和达到最大值,获取此种情况下的分类器的分类结果;在具体的处理过程中,所述文本分类模块执行的具体步骤如下:1)初始化所有训练样本点的权重值为
wi(1)为所述训练样本集合中的第i个训练样本点xi在第1次迭代的权重,i为正整数,表示训练样本点在训练样本集合中的标号,上标(1)表示训练样本处于第1次迭代,m表示所述训练样本集合中训练样本点的个数;2)训练样本集合开始迭代,设置迭代的总次数为T,T为正整数;迭代的参数为t,t为正整数,表示处于第t次迭代,t=1,…,T;2.a)所述文本分类模块输入参数λ以及训练样本集合D,并选择D的子集D',设选择训练样本点的个数为c=m×λ,即子集D'中包含的训练样本点的个数为c,其中,0<λ≤1,具体过程为,将训练样本集合D={(x1,y1),...,(xm,ym)}作为待选择的集合,每次从所述待选择的集合中选择一个训练样本点,选择的次数为c,c为正整数,选择的步骤为:首先,初始化n=0,n表示选择的计数参数,用于计算已经选择的训练样本的个数,n为正整数;i.所述文本分类模块为每一个训练样本(xi,yi)赋值选择权重qi,i=1,…,m,其中
选择权重的初始值q0=0,其中q为任意一个选择权重,j为正整数,wj为第j个训练样本点xj的权重;ii.所述文本分类模块生成随机数p,随机数p等于rand(0,qm),即随机产生在0到qm之间的一个数赋值给p,接着,利用选择权重q划分区间集合,所述区间集合包含的区间为[q0,q1][q1,q2]、[q2,q3],…,[qi,qi+1],…,[qm‑1,qm],区间[qi,qi+1]对应于训练样本(xi+1,yi+1);qi为第i个选择权重,qm表示第m个选择权重;iii.所述文本分类模块判断随机数p属于所述区间集合中包含的哪个区间,从所述训练样本集合D中调出选择的训练样本放入所述训练样本集合的子集D',设定两个整数l、r,l初始为0,r初始等于m‑1,分别与区间集合中包含的区间[q0,q1]、[qm‑1,qm]相对应,并且满足ql≤r以及qr>r:所述文本分类模块设置循环1的过程为,取中间数
如果ql≤r,l=U+1,否则r=U;检查l与r的数值是否相等,如果相等跳出循环1,如果不相等继续执行循环1;其中,ql为第l个选择权重,qr为第r个选择权重;当跳出循环1,将区间[ql,ql+1]从区间集合去除,将(xl,yl)加入训练样本的子集D',n=n+1,并且转到第i步;当n的值等于c时,所述训练样本集合D的子集D'都被选择完毕;2.b)所述文本分类模块将所述训练样本集合D的子集D'以及第t次迭代第i个训练样本点xi的权重wi(t)作为输入参数,进行分类,分类迭代式为h(t)=L(D’,wt(t)),L表示对权重值为wi(t)、所述训练样本集合D的子集D'进行学习训练,h(t)为弱分类器h的第t次迭代分类结果,所述文本分类模块中采用了ELM模型作为弱分类器h的学习训练模型,并且第t次迭代分类的误差e(t)为:
h(t)(xi)表示对第t次迭代使用弱分类器h对训练样本点xi进行分类的结果,h(t)(xi)≠yi表示第i个训练样本点xi的分类结果不等于相应的分类标签yi,
表示第i个训练样本点xi分类结果等于除了分类标签以外的分类结果,
为除了分类标签以外的分类结果,
表示满足h(t)(xi)≠yi或者
的第t次迭代中第i个样本点的权重
e(t)的计算式表示为将满足该式子的所有样本点的权重在所有迭代过程中的数值累积之和,并且将其占总的权重比例计算出来作为第t次迭代的误差;
表示不为第i个分类标签yi的任何一个分类结果,如果
默认为样本点xi在第t轮迭代的过程中没有经过分类器h的分类;2.c)所述文本分类模块计算弱分类器h在第t次迭代的权重β(t),计算式如下:
在每一次迭代,都通过上式计算弱分类器h在第t次迭代的权重β(t);β表示弱分类器h的权重;2.d)所述文本分类模块重新调整训练样本的权重,调正的公式如下:
根据上一步的弱分类器h在第t次迭代的权重β(t)的值,对
的值进行限制,h(t)(xi)表示弱分类器h在第t次迭代对第i个样本点xi的分类后的类别标签,xi表示第i个样本点,yi表示第i个类别标签;
表示满足h(t)(xi)≠yi或者
的第t次迭代中第i个样本点的权重β(t),将其作为e的指数,然后与
相乘作为下一次迭代训练样本的权重,
为第t次迭代的第i个训练样本的权重,
为第t+1次迭代的第i个训练样本的权重;2.e)最后,所述文本分类模块对下一轮的训练样本权重
进行标准化,标准化的计算式如下:
t=t+1,当t等于T时,跳出迭代;最后,根据上述步骤计算分类器![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810447545.5/,转载请声明来源钻瓜专利网。