[发明专利]基于信息熵的连续属性数据无监督离散化方法有效
申请号: | 201711450629.6 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108073553B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 马生俊;陈旺虎;郭宏乐;乔保民;李新田 | 申请(专利权)人: | 西北师范大学 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 济南鼎信专利商标代理事务所(普通合伙) 37245 | 代理人: | 曹玉琳 |
地址: | 730070 *** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息 连续 属性 数据 监督 离散 方法 | ||
本发明涉及大数据连续属性离散化技术领域,尤其涉及一种基于信息熵的连续属性数据无监督离散化方法。步骤如下:步骤1、遍历任一连续属性的所有取值记录,统计该属性的离散粒度|nj|及各不同取值的概率qji,记录最大值njmax和最小值njmin;步骤2、根据信息熵的计算公式得出任一连续属性nj取值混乱程度的计算公式,根据公式计算该属性的取值混乱程度;步骤3、对取值混乱程度向下取整得到断点数;步骤4、采用等宽区间的方法计算划分的每个区间的宽度,确定每个断点的位置;步骤5、对连续属性nj进行离散化。本发明这种全新的确定断点数的方式,更能适应原数据,各属性离散化互不影响,且不依赖于其他属性,计算效率更高。
技术领域
本发明涉及大数据连续属性离散化技术领域,尤其涉及一种基于信息熵的连续属性数据无监督离散化方法。
背景技术
连续属性离散化是将连续属性的取值范围划分成若干个区间,每个区间对应唯一的离散值,使原始数值转变为离散值的过程。国内外研究者们在连续属性(数值属性)离散化方面提出了非常多的方法,按不同的角度有多种分类方法,分别为自顶向下与自底向上、有监督与无监督、整体与局部、静态与动态以及单属性与多属性等。连续属性离散化的本质是确定离散值个数(区间数,intervals)和断点位置的问题,从如何确定离散值个数的角度来看,主要有以下几类方法。
其一,用户主观指定离散值个数的方法。典型的有等宽区间法(EWD)、等频区间法(EFD)、基于聚类的离散化方法以及代表性的CADD(Class-Attribute DependentDiscretizer,依赖类与属性的离散化)方法等,这些方法都需要用户提前指定离散值个数K,虽然有一定的效果,但由于缺少理论依据、难以准确把握离散值个数K,该类方法主要缺点在于需要用户指定离散值个数K。
其二,假设离散值个数K与区间内记录个数f或区间宽度d存在关系的方法。典型的PD(Proportional Discretizer,比例离散化)方法和FIMUS(Rahman and Islam,2014)方法,PD方法假定离散值的个数K等于每个小区间的记录数f,且K*f=D,其实质是一种等频区间法;FIMUS方法假定离散值的个数K等于每个小区间的宽度d,且K*d=[min,max],其实质是一种等宽区间法。以上两种方法避免用户输入参数,但是需要提前假定条件,默认单个区间内的记录数与区间数的积等于记录总数或取值范围,缺少理论依据。
其三,根据分类属性或离散属性间的关系确定离散值个数K。基于这种思想的方法比较多,代表性的有CAIM(Class-Attribute Interdependence Maximization,类与属性相关度最大化)、LFD(Low Frequency Discretizer,低频率离散化)、MDLP(MinimumDescription Length Principle,最小描述长度准则)等方法。CAIM是CADD的一种改进,该方法以caim值作为离散判别式,以达到类与属性相关度最大化为目标,通过类属性相互关系的启发式标准产生尽可能最小的区间数;LFD是在基于CAIM等只考虑连续属性与分类属性的关系进行离散化方法和多数方法以高频值作为候选断点的基础上加以改进,该方法在进行连续属性离散化时考虑与所有属性的关系,如分类属性、离散属性以及被离散化的属性,且以低频值作为候选断点;类似CAIM和LFD的方法在离散化时产生了对分类属性或其他属性的依赖。MDLP方法是基于信息熵和最小长度描述的经典方法,该方法递归的选择断点,试图最小化模型的信息量,利用mdlp决定合适的离散值个数;类似地,采用信息熵的思想进行离散化的方法有很多,但是大多都是根据某种形式的熵值来确定是否合并或分裂区间。
以上方法中,用户主观指定离散值个数的方法缺乏对原数据的适应性;假定条件的方法缺少理论依据;通过启发式的方法导致离散化过程依赖其他属性;采用信息熵的方法并不是根据连续属性的信息熵确定离散值个数,计算代价较大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北师范大学,未经西北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711450629.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置