[发明专利]一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统无效

专利信息
申请号: 200910238215.6 申请日: 2009-11-23
公开(公告)号: CN101719147A 公开(公告)日: 2010-06-02
发明(设计)人: 尹留志 申请(专利权)人: 合肥兆尹信息科技有限责任公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京纪凯知识产权代理有限公司 11245 代理人: 徐宁;关畅
地址: 230001 安徽省合肥市金*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 罗切斯特 模型 朴素 贝叶斯 数据 分类 系统
【说明书】:

技术领域

发明涉及一种数据分类系统,特别是关于一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统。

背景技术

数据挖掘在金融业、零售业和电信业的应用越来越广泛,在金融领域,管理者可以通过数据挖掘对客户偿还能力以及信用的分析,进行分类,评出等级,从而可减少发放贷款的盲目性,改善银行资产以及负债在各种投资产品类型中的配比结构,提高资金的使用效率,优化资产结构。同时还可发现在各种资金运作业务中起决定性作用的主导因素和关键环节,从而制定相应的金融政策。在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。

分类系统是数据挖掘的主要系统之一,用于提取描述重要数据类别归属的模型或预测未来的数据趋势。一般来说,分类是把数据项映射到其中一个事先定义的类中的学习函数的过程,用基于归纳学习算法得出分类。学习的目标是构建一个分类模型,通常也叫分类器,它可以根据有效的变量输入值预测一些所给样本的类。导出的模型是基于对训练数据集的分析,并用IF-THEN规则、决策树、数学公式或神经网络等形式表示。目前数据分类的技术系统主要有决策树、贝叶斯系统、神经网络、K-最近邻系统、Logistic(罗切斯特)回归、多元线性回归、支持向量机、聚类分析系统等。

通常情况下,评价模型的好坏主要看其系统的无偏性和稳健性。具体的说,无偏性主要表现在预测或者分类结果的均值和样本均值保持一致,而稳健性则主要考察模型的训练样本评分向量和测试样本的评分向量是否是高度相关的,相关度高就表示好,相关度低则表示差。罗切斯特回归模型作为大样本数据情况下最稳定的二元分类系统已被广泛用于评分建模中。对罗切斯特回归模型而言,其优点主要是稳健性较好、模型的可解释性较强、可以产生一个线性评分卡,缺点则是预测精度与其他某些系统相比较差,如神经网络、Naive Bayes(朴素贝叶斯)模型等。朴素贝叶斯模型是一种简单而高效的分类器,但是其变量独立性假设限制了对实际数据的应用,通过建模测试发现,单独使用朴素贝叶斯模型建立的模型精确度很高,但模型稳健性较差,仅对其中部分数据的分类精确。

发明内容

针对上述问题,本发明的目的是提供一种稳健性好,可解释性强,而且简单、高效、精确度高的基于罗切斯特模型-朴素贝叶斯模型的数据分类系统。

为实现上述目的,本发明采取以下技术方案:一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统,其特征在于:它包括数据处理模块、样本抽样模块、模型建立模块、数据测试模块;所述数据处理模块中,根据输入的原始样本集中各类样本变量的缺失值比率,以及各类样本变量之间的相关性和样本属性,将所述原始样本集分为饱和层和缺失层;所述样本抽样模块中,根据目标变量,从所述饱和层和缺失层中随机抽取训练样本变量和测试样本变量,分别形成具有饱和层和缺失层的训练样本集和测试样本集,将所述训练样本集输入所述模型建立模块,将所述测试样本集输入所述数据测试模块;所述模型建立模块中,对所述饱和层中的训练样本采用罗切斯特回归模型建模,对所述缺失层中的训练样本采用朴素贝叶斯模型建模,并将得到一混合动态模型输入到所述数据测试模块中,所述混合动态模型包括有罗切斯特回归模型和朴素贝叶斯模型;所述数据测试模块中,将所述饱和层的测试样本输入所述混合动态模型中的罗切斯特回归模型中,将所述缺失层的测试样本输入所述混合动态模型中的朴素贝叶斯模型中,之后进行测试,得到并输出评分结果。

所述饱和层包括可利用信息较多的样本,所述缺失层包括可利用信息较少的样本。

从所述饱和层随机抽取的训练样本所占比例与所述缺失层中随机抽取的训练样本所占比例相同。

从所述饱和层随机抽取的训练样本中目标变量的分布与原饱和层总样本目标变量的分布一致;从所述缺失层随机抽取的训练样本中目标变量的分布与原缺失层总样本目标变量的分布一致。

所述模型建立模块中,所述罗切斯特回归模型的关键变量使用向前向后的逐步回归法进行选取。

所述模型建立模块中,所述朴素贝叶斯模型通过判断训练样本的最大后验概率,对所述训练样本进行分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥兆尹信息科技有限责任公司,未经合肥兆尹信息科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910238215.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top