[发明专利]基于数据压缩的支撑向量机建模方法在审
申请号: | 201510657157.6 | 申请日: | 2015-10-12 |
公开(公告)号: | CN105373583A | 公开(公告)日: | 2016-03-02 |
发明(设计)人: | 王洋;黄瑞;陈训逊;苏卫卫;吴震;于文峰;蒋旭 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;天津神舟通用数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 王利文 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据压缩 支撑 向量 建模 方法 | ||
技术领域
本发明属于数据挖掘和大数据分析技术领域,尤其是一种基于数据压缩的 支撑向量机建模方法。
背景技术
随着计算机技术的飞速发展,特别是Internet技术的不断应用,人们利用 网络信息技术产生和搜集数据的能力有了很大幅度的提高,数据呈现了飞快的 增长趋势。如何从海量的数据中获取所需要的信息成为了一个迫切需要研究的 问题。面对这样的挑战,数据挖掘(DataMining)技术应运而生,使用数据挖掘 技术能够从这些海量数据中获取隐含的有用信息。然而,由于数据的爆炸性增 长,如何使用数据挖掘技术快速有效地从海量的数据中获取隐含有用的信息变 得越来越重要。因此,数据挖掘技术成为大数据技术中核心技术之一。
在数据挖掘技术中,对分析对象进行类别划分,或对事态的发展进行准确 预测,是最为典型的应用场景,对应的问题往往是分类问题或预测问题。而在 分类和预测技术中,目前应用效果最为显著的当属支撑向量机(SupportVector Machine,SVM,又称“支持向量机”)技术。支撑向量机技术与神经网络、贝叶 斯等方法采用经验风险最小化(均方误差最小化)不同的是,它是一种基于结 构风险最小化原则的分类及回归挖掘方法。其基本思想是:为了解决分类问题, 它试图寻找一个分类超平面,并把找分类超平面的问题转化成一个凸二次规划 问题;为了解决非线性可分问题,它引入非线性核函数的理念,将低维空间的 非线性可分问题转化成一个高维空间的线性可分问题,简化求解的难度;为了 避免异常数据的干扰,它引入结构风险最小化的理念,寻找分类边界上的样本 点(支撑向量),仅用支撑向量来构建模型。所有这些构建思想决定了支撑向量 机即便利用较少的数据样本,也可以得到别的方法更好的预测模型,并且模型 具有更好的泛化推广能力。
由于支撑向量机是借助二次规划来求解支持向量,而求解二次规划问题将 涉及到M阶矩阵的计算(其中M为样本的个数),计算复杂度是样本数o(M^2) 的。因此,当学习样本(数据记录数)达到百万级的海量数据时,该矩阵的存 储和计算将耗费比其他同类方法大得多的机器内存和运算时间,因此,限制了 支撑向量机在大数据分析场景的应用。
发明内容
本发明的目的在于克服现有技术的不足,提供一种设计合理、能够提高海 量数据性能的基于数据压缩的支撑向量机建模方法。
本发明解决现有的技术问题是采取以下技术方案实现的:
一种基于数据压缩的支撑向量机建模方法,包括以下步骤:
步骤1、采用等距抽样方法对建模数据进行抽样;
步骤2、对建模数据进行压缩:根据抽样后的数据,采用聚类思想建立聚类 特征树,将所有的样本划分成一系列不相似的样本群体,从每个样本群体中挑 选一个或有限个样本代表这个样本群体,从而实现数据的压缩;
步骤3、从聚类特征树提取建模数据:对聚类特征树的叶子节点下的每一簇 数据,计算其边界,取最有可能成为支撑向量的边界点作为支撑向量机的建模 数据;
步骤4、建立支撑向量机模型:根据建模数据利用支撑向量机方法,建立支 撑向量机模型。
而且,所述步骤4后还包括模型测试步骤:利用全部建模数据集,对支撑 向量机模型进行测试,如果支撑向量机模型准确率大于阈值,则得到最优模型, 建模终止;否则转步骤1继续建模,直到支撑向量机模型准确率满足阈值要求, 或者已用全部数据建模。
而且,所述步骤2的具体处理步骤为:
(1)遍历每一条数据,依次插入到聚类特征树中;
(2)从聚类特征树根节点开始遍历;
(3)如果当前节点是叶子节点,转至步骤(4),否则转至步骤(7);
(4)找到当前节点中与该条数据最近的孩子节点,计算将该条数据与此孩 子节点的数据合并后的簇直径;如果簇直径小于阈值,则转至步骤(5),否则 转至步骤(6);
(5)将该条数据与最近的孩子节点进行合并;
(6)该条数据作为当前节点的一个新的孩子节点,如果当前节点的孩子节 点数超过一定阈值,则将当前节点拆分为两个节点,选择距离最远的两个孩子 节点作为初始节点,将其它孩子根据距离远近分到合适的节点进行合并;
(7)找到当前节点中与该条数据最近的孩子节点,将此孩子节点作为新的 当前节点,转至步骤(3)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;天津神舟通用数据技术有限公司,未经国家计算机网络与信息安全管理中心;天津神舟通用数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510657157.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种政策推送管理系统
- 下一篇:一种PDF文档注释的获取方法及装置