[发明专利]一种基于文本模型的过采样算法在审

申请号：	201410765212.9	申请日：	2014-12-10
公开（公告）号：	CN104462405A	公开（公告）日：	2015-03-25
发明（设计）人：	刘江;王浩	申请（专利权）人：	天津大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	叶青
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本模型采样算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及文本模型不平衡数据的二分类，尤其涉及一种基于文本模型的过采样算法

背景技术

1)文本挖掘

随着计算机技术、网络技术的发展，汹涌而来的信息有时使人无所适从，从浩如烟海的信息海洋中迅速而准确地获取自己最需要的信息，变得非常困难。海量信息中，许多是文本信息。于是产生了一种新的信息处理技术——文本挖掘。

文本挖掘是从大量文本信息中，抽取出隐含的、有用的知识，这一过程也称为文本数据库中的知识发现。它涉及到数据库、机器学习、自然语言处理、统计数据分析等多个学科领域。研究内容包括文本聚类、文本分类、文本摘要的生成、信息抽取等问题。

2)文本分类

文本分类是文本挖掘研究中一个重要的问题，它是指在给定的分类体系下，将大量文本划分为两个或多个类别。利用计算机进行文本分类，不仅速度快，而且准确率相对较高。在现实生活中已经有了很多应用，例如，对Web网页进行分类，将包含相同内容的页面归为一类。文本分类的步骤主要包括获取训练文档集、信息的预处理、特征提取、文本表示、选择分类方法和性能评估六个步骤

3)不平衡数据分类

在许多实际应用中，数据集往往不平衡，即其中某个类别的样本数可能远远小于另一个类别，而往往其中少数类的识别率更为重要。例如医疗诊断、信用卡检测等。

在传统的分类学习中，通常倾向于对多数类有较高的识别率，儿对少数类的识别率很低。因此解决不平衡数据集的分类问题需要对寻求新的解决办法。通常采用的方法是通过改变训练数据的分布来消除过减弱数据的不平衡。大体策略有两种：过采样和欠采样。

过采样是通过增加少数类样本来消除或减弱数据的不平衡，欠采样是通过减少多数类样本来消除或减弱数据的不平衡。其中较多采用的方法是Chawla等人提出的SMOTE算法。

4)SMOTE算法

SMOTE(Synthetic Minority Over-sampling Technique)算法是由Chawla等人提出的一种过采样方法。其核心思想是通过增加少数类样本的数目来达到使数据集趋于平衡的目的。主要应用的方法是k近邻和线性插值：在样本点和其邻近的点之间按照一定的规则生成新的样本，从而增大少数类样本的规模。

算法具体描述如下：

对于少数类中的每一个样本S，选择欧几里得距离作为距离函数，计算出S的k个最近邻样本。一般情况下，k的值取5。

对于少数类中的每一个样本t，从其k个最近邻中选择合适的m个样本(t₁,t₂,…,t_m)，并在S与t_i(i＝1,2,…,m)之间进行随机线性插值。m的选择应参照数据集中的不平衡比率。

对每一个选出的近邻x_i，按照公式1，构造出新的样本。

t_new＝S+rand(0,1)×(t_i-S)

其中rand(0,1)表示0到1之间的一个随机数，这种方法叫做随机线性插值

把原始训练样本和人工合成的样本合并成一个新的训练集，然后使用新的训练集进行学习。

SMOTE算法给出了合成样本的规则，避免了直接复制样本导致的过学习，实验表明SMOTE算法相对于其他过采样方法能更好地提高不平衡数据分类的效果。

SMOTE算法采用k近邻的方法来找出适合于原始少数类样本协同生成新样本的样本。所谓k近邻，就是根据某种距离计算方法，先计算样本间的距离，在选出k个最近距离的样本，对于数值属性，距离计算方法通常采用欧几里得距离。假设x，y是两个n维样本，则x，y之间欧几里得距离可由公式2得到。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】