[发明专利]一种基于改进的Apriori算法的电网数据挖掘方法在审
申请号: | 202210096059.X | 申请日: | 2022-01-26 |
公开(公告)号: | CN114547138A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 马永;周明;徐敏;张靖;张子健;王俊 | 申请(专利权)人: | 国网安徽省电力有限公司信息通信分公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q50/06 |
代理公司: | 合肥律众知识产权代理有限公司 34147 | 代理人: | 赵娟 |
地址: | 230000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 apriori 算法 电网 数据 挖掘 方法 | ||
本发明公开了一种基于改进的Apriori算法的电网数据挖掘方法,通过限制候选产生发现频繁项集,再由频繁项集产生关联规则,产生关联规则为:1、扫描所有频繁项集L,并计算置信度、效率度、兴趣度;2、与置信度阈值比较,去除不满足条件的频繁项集,得到频繁项集L′;3、与效率度阈值比较,去除不满足条件的频繁项集,得到频繁项集L″;4、与效率度阈值比较,去除不满足条件的频繁项集,得到频繁项集L″′;5、产生关联规则并输出。本发明在产生关联规则阶段引入效率度和兴趣度两个因子,来确定目标事务数据库中各个项集之间的关联关系,从而更加准确地筛选出强关联规则,从而更利于电网数据的挖掘,从电网数据中获得更多有用信息。
技术领域
本发明涉及电网数据挖掘技术领域,尤其是一种基于改进的Apriori算法的电网数据挖掘方法。
背景技术
对于电网来说,电网系统的安全运行至关重要。在电网系统数据库中,存储着海量的电网数据,可以依据这些电网数据,推断及预测系统存在的安全问题。传统数据库仅提供基础的增、删、查、改功能,无法挖掘海量数据包含的更多信息,纯粹依靠人工找寻电网系统数据库中海量电网数据之间的内在联系,也已经不切实际。
随着数据挖掘算法的不断发展,逐步应用于各个领域,当然也包括电网数据的挖掘。Apriori算法是一种用于关联规则挖掘的代表性算法,关联规则挖掘是数据挖掘中的一个非常重要的研究方向,它的主要任务就是设法发现事物之间的内在联系。
现有的Apriori算法通过限制候选产生发现频繁项集,再由频繁项集产生关联规则,而产生关联规则主要通过扫描频繁项集,计算置信度,根据置信度阈值确定满足要求的规则并输出。电网系统数据库中的电网数据的数量极为庞大,基于现有的Apriori算法进行数据挖掘,存在筛选出的关联规则较弱,以及运行效率低的问题。
发明内容
针对基于现有的Apriori算法进行电网数据挖掘存在的技术问题,本发明提供一种基于改进的Apriori算法的电网数据挖掘方法,显著提升运行效率,增强算法稳定性。
一种基于改进的Apriori算法的电网数据挖掘方法,通过限制候选产生发现频繁项集,再由频繁项集产生关联规则,假设全项集X={x1,x2,x3,...,xn},事务数据库D=(X1,X2,X3,...,Xm)包含m个事务,其中第i个事务Xi由k(k≥1)项x组成,即为k候选项集Ck={x1,x2,x3,...,xk}。
一、发现频繁项集包括以下步骤:
1、扫描事务数据库,计算k候选项集的支持度,根据支持度阈值确定频繁项集Lk;
2、计算频繁项集Lk中每项出现的次数,并记录出现次数小于k的项集M={ij(|Lk(ij)|<k)};
3、去除频繁项集Lk中所有含有项集M中元素的频繁项集,得到Lnewk;
4、根据频繁项集Lnewk,生成k+1候选项集Ck+1;
5、不断迭代,直到频繁项集为空。
二、产生关联规则包括以下步骤:
1、扫描所有频繁项集L,并计算置信度、效率度、兴趣度,
置信度计算公式
效率度计算公式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网安徽省电力有限公司信息通信分公司,未经国网安徽省电力有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210096059.X/2.html,转载请声明来源钻瓜专利网。