[发明专利]一种基于信息熵的异常数据判别方法在审
申请号: | 202210215104.9 | 申请日: | 2022-03-07 |
公开(公告)号: | CN114564696A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 邓飞;何俊;申时凯;缪希松;洪孙焱;毛雄建;岳维好;王晓鹏;李博雄 | 申请(专利权)人: | 昆明学院 |
主分类号: | G06F17/18 | 分类号: | G06F17/18;G06K9/62 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 高福勇 |
地址: | 650214 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 异常 数据 判别 方法 | ||
本发明公开了一种基于信息熵的异常数据判别方法,利用逻辑回归模型,把一条数据所对应的每个子特征,转化成概率问题;把与数据X同性质的,知道其数据是异常或正常的数据集,作为训练模型的测试集,寻找准确率最高时所对应的切割值,作为最优切割值;在最优切割值基础上,计算出相应概率及信息熵,按照比对原则统计出测试集的准确率,寻找准确率最高时所对应的比对值,作为比对阈值;通过香农公式,利用求出的概率求出该数据所对应的信息熵;把信息熵与阈值进行比对,当信息熵大于阈值时,判别该数据为正常数据,当信息熵小于等于阈值时,判别该数据为异常数据。该方法引入逻辑回归模型简便地确定概率,易于操作计算。
技术领域
本发明涉及数据治理、深度学习领域,特别涉及一种基于信息熵的异常数据判别方法。
背景技术
近年来,“数据”列为生产要素,充分凸显了数字对经济活动和社会活动的巨大价值。大数据、人工智能、区块链等数字技术被广泛应用于智慧城市、公共事务管理等社会治理领域,加速了社会治理的数字化转型进程。
在数字化转型过程中,“数据治理”是最关键的环节之一。“数据治理”关注的是数据规划、数据获取、数据质量、数据共享、数据标注等数据管理的整个生命周期,是各个领域“智能决策”应用的关键支撑。
在“数据治理”中,利用信息熵的思想,一条信息的信息量与它的不确定性有直接关系,如果要搞清楚该数据,需要了解的信息就越多,其信息熵越大。所以,利用信息熵思想来判别数据是否是异常数据是一项很重要的工作。
发明内容
本发明所要解决的技术问题是提供一种基于信息熵的异常数据判别方法,判别方法更加准确,以解决现有技术中导致的上述多项缺陷。
为实现上述目的,本发明提供以下的技术方案:一种基于信息熵的异常数据判别方法,其特征在于,把需要判别是否异常的数据对象,定义为数据X,X=(X1,X2,…,Xi,…,Xn),其中,n为数据X包含的元素个数,Xi为数据X中的第i个元素;
包括如下步骤:
1)利用逻辑回归模型,把一条数据所对应的每个子特征,转化成概率问题;
2)把与数据X同性质的,知道其数据是异常或正常的数据集,作为训练模型的测试集,在逻辑回归模型的基础上计算准确率,寻找准确率最高时所对应的切割值,作为最优切割值;
3)在最优切割值基础上,计算出相应概率及信息熵,按照比对原则统计出测试集的准确率,寻找准确率最高时所对应的比对值,作为比对阈值;
4)通过香农公式,利用求出的概率求出该数据所对应的信息熵;
5)把信息熵与阈值进行比对,当信息熵大于等于阈值时,判别该数据为异常数据,当信息熵小于阈值时,判别该数据为正常数据。
优选的,所述步骤1)中,假设对于数据X,因变量Y的输出值为1,即X为异常数据;或者0,即X为正常数据;解释变量为Xi,Y 与Xi之间的关系由概率P(Y=1)来解释,因此概率P(Y=1)定义如下:
其中,αi是Xi的线性模型的估计值,ε是随机变量误差值;
通过转换公式(1),可以得到
其中,
使用逻辑回归转换,可以得到逻辑回归模型,如(3)所示;
因此,Y可以如下表示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明学院,未经昆明学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210215104.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置