[发明专利]一种基于朴素贝叶斯的大段不等长缺失数据填补方法有效
| 申请号: | 201910892758.3 | 申请日: | 2019-09-20 |
| 公开(公告)号: | CN110826718B | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 许志城;徐康康;杨海东;印四华;朱成就 | 申请(专利权)人: | 广东工业大学 |
| 主分类号: | G06N7/00 | 分类号: | G06N7/00;G06F16/21;G06F16/28 |
| 代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
| 地址: | 510062 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 朴素 贝叶斯 不等 缺失 数据 填补 方法 | ||
1.一种基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,包括以下步骤:
采集生产数据,并进行生产数据的预处理,包括对生产数据进行固定频率的降采样,以取得固定时间间隔的生产数据序列;对生产数据序列中的生产数据做偏移量计算,得到偏移序列,并去除偏移序列中的异常值,得到新的偏移序列;
自定义尺度,利用所述新的偏移序列中的最大值和最小值,确定标尺刻度,并建立标尺数组;利用标尺数组标量化所述新的偏移序列,得到标量化后的序列;利用滑动窗口从所述标量化后的序列中取得固定子序列长度的短序列集合;
从所述短序列集合中抽取靠近待修补数据一定时间范围内的短序列子集,对短序列子集中所有的短序列进行切割,指定切割长度并将每个短序列切割成两段,一段作为匹配段,另一段作为预测段;
利用朴素贝叶斯法建立数据修补模型,利用数据修补模型进行待修补数据的修补;所述的数据修补模型,表示为:
其中:
stk表示预测段,shi表示匹配段;
P(Y=stk|X=shi)表示当匹配段为shi时,预测段为stk的概率;
|S(X=shi,Y=stk)|表示短序列子集中匹配段和预测段为(shi,stk)的数量;
|S(X=shi)|表示短序列子集中匹配段为shi的数量。
2.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的去除偏移序列中的异常值,得到新的偏移序列,包括:
求得偏移序列U的平均数μ及其标准差σ;利用平均数μ及其标准差σ对偏移序列U中的数据进行筛选,得到新的偏移序列U0;表示如下:
U0={ui,|ui≤μ+5*σ,ui∈U,i=1,2,…}
其中,ui表示偏移序列U0中的偏移量。
3.如权利要求2所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的自定义尺度,利用所述新的偏移序列中的最大值和最小值,确定标尺刻度,并建立标尺数组,包括:
自定义尺度N,取得偏移序列U0中的最大值umax和最小值umin,对(umin,umax)进行等距划分,得到标尺刻度(umax-umin)/N;令M=(umax-umin)/N,则标尺数组R表示为:
R={r1,…,ri,…,rN}={0,umin+M*1,…,umin+M*j,…,umin+M*(N-1),Umax},j=1,2,…N。
4.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的利用标尺数组标量化所述新的偏移序列,得到标量化后的序列,包括:
将所述新的偏移序列U0中位于标尺数组中每相邻的两个数据间的偏移量均转换为固定值。
5.如权利要求1所述的基于朴素贝叶斯的大段不等长缺失数据填补方法,其特征在于,所述的利用数据修补模型进行待修补数据的修补,包括:
获取缺失段段前序列、缺失段缺失时间长度、缺失段两端数值,使用标尺将缺失段段前序列转换成标量序列;将缺失段缺失时间长度除以降采样时间间隔得到修补序列的长度;计算缺失段两端数值之差,并除以标尺刻度,得到目标修补序列标量化后的值;
使用数据修补模型进行连续预测,生成序列;同时使用约束条件筛选出匹配序列,得到修补结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910892758.3/1.html,转载请声明来源钻瓜专利网。





