[发明专利]一种基于布尔矩阵的后验双阈值电力大数据Apriori并行方法在审
申请号: | 201811088918.0 | 申请日: | 2018-09-17 |
公开(公告)号: | CN109460850A | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 张翼英;刘飞;张春光;王思宁;李云;孙磊;付兰梅;彭嫚;贾翠玲;赵金铎;童骁;梁琨;王聪;庞浩渊;阮元龙;刘松;尚静 | 申请(专利权)人: | 天津科技大学;北京国电通网络技术有限公司;国网信息通信产业集团有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/06 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 韩晓梅 |
地址: | 300457 天津市滨*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 布尔矩阵 有效地 剪枝 去除 并行 并行处理 并行算法 瓶颈问题 压缩存储 准确度 并行化 引入 算法 运算 验证 压缩 应用 | ||
本发明涉及一种基于布尔矩阵的后验双阈值电力大数据Apriori并行方法,所述方法包括如下步骤:步骤一:用布尔矩阵对数据进行压缩;步骤二:引入去除率进行剪枝;步骤三:进行双阈值并行处理;步骤四:利用提升度对结果进行验证。本方法采取了后验双阈值的Apriori并行算法,并且引入布尔矩阵和去除率的概念来对数据的处理进行剪枝和压缩存储,实现算法的运算并将其应用于电力大数据,达到减少计算次数的目的,最终实现电力大数据高效并行化计算,有效地解决了电力大数据的计算瓶颈问题,有效地提升了电力大数据的准确度、效率和数量。
技术领域
本发明属于电力技术领域,尤其是一种基于布尔矩阵的后验双阈值电力大数据Apriori并行方法。
背景技术
随着经济技术的发展,电力系统已经成为了社会发展的重要基础,掌握电力大数据应用的关键技术,将有利于电力行业的可持续发展和建立坚强的智能电网。经过多年的发展与沉淀,目前国家电网积累了全网相当多的客户档案数据和海量供电服务信息,以及公司营销、电网生产等数据。因此,如何对海量的电网业务数据进行快速计算分析,为智能电网的快速建设提供参考依据,对智能电网的安全、可靠运行具有重要的研究意义。
在面对大量数据时,传统Apriori算法需要进行多次数据库遍历以及可能建立大量候选项的缺陷会导致系统内存占用量大、磁盘I/O读写操作频繁,算法运行效率低。
针对电力数据计算效率较低的问题,近年来国内外学者已经取得了一定的研究成果。高盼等提出了一种基于Hadoop的电力大数据Apriori并行计算方法,提出一种面向电力大数据的Apriori并行化改进算法,通过设置最小支持度和构建频繁集矩阵,使数据处理效率得到提高。
但是,上述方法只是将Apriori算法进行了并行化处理,在算法的执行阶段采取可分而治之的策略,虽然对算法的运行效率有了改进,但是在数据的处理和读取阶段没有对数据进行相应的处理,会导致算法频繁的去扫描数据库,增加过多的冗余操作。
谢志明等提出了一种基于MapReduce架构的并行矩阵Apriori算法,将基于矩阵关联规则算法与MapReduce相结合,并通过实验验证移植到云计算平台的Apriori_M算法对海量数据挖掘的有效性带来更高的工作效率。
但是,虽然该方法在一些研究方面取得了很显著的成效,但是算法数据简洁性不够好,可能会产量大量的频繁性候选集,导致输出的结果的不准确,降低了算法的准确度。
另外,目前对于电力大数据的频繁项集额挖掘算法研究的较少,故基于布尔矩阵后验双阈值后验双阈值电力大数据Apriori算法的研究也是相对较少。
发明内容
本发明目的在于针对现有技术的不足之处,提供一种基于布尔矩阵的后验双阈值电力大数据Apriori并行方法,该方法采取了后验双阈值的Apriori并行算法,并且引入布尔矩阵和去除率的概念来对数据的处理进行剪枝和压缩存储,实现算法的运算并将其应用于电力大数据,达到减少计算次数的目的,最终实现电力大数据高效并行化计算,有效地解决了电力大数据的计算瓶颈问题,有效地提升了电力大数据的准确度、效率和数量。
为了实现上述目的,本发明所采用的技术方案如下:
一种基于布尔矩阵的后验双阈值电力大数据Apriori并行方法,其特征在于:所述方法包括如下步骤:
在数据处理阶段,采用布尔矩阵实现对事务矩阵的压缩,减少计算次数,从而达到提高算法计算效率的目的;
在数据读取阶段引入去除率概念,利用去除率的概念对事务数据库进行剪枝操作,在对数据进行读取时会根据去除率去抛弃一部分数据;
在算法执行阶段首先采用并行处理,将事务数据库D划分成n个非重叠的子事务数据库,保证了各事务的同等重要性,被挖掘的机会均等;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学;北京国电通网络技术有限公司;国网信息通信产业集团有限公司,未经天津科技大学;北京国电通网络技术有限公司;国网信息通信产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811088918.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理