[发明专利]一种异构系统的并行apriori选取频集的方法在审
申请号: | 201610084587.8 | 申请日: | 2016-02-14 |
公开(公告)号: | CN105739950A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 王娅娟 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 刘继枝 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 系统 并行 apriori 选取 方法 | ||
技术领域
本发明涉及高性能计算中的异构计算领域,具体地说是一种异构系统的并行apriori选取频集的方法。
背景技术
Apriori算法是一个挖掘关联规则的算法,是Agrawal等设计的一个基本算法,这是一个采用两阶段挖掘的思想,并且基于多次扫描事务数据库来执行的。其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。
Apriori算法的设计可以分解为两步骤来执行挖掘:
1)从事务数据库(D)中挖掘出所有频繁项集。支持度大于最小支持度minSup的项集(Itemset)称为频集(FrequentItemset)。
首先需要挖掘出频繁1-项集;
然后,继续采用递推的方式来挖掘频繁k-项集(k>1),具体做法是:
在挖掘出候选频繁k-项集(Ck)之后,根据最小置信度minSup来筛选,得到频繁k-项集。
最后合并全部的频繁k-项集(k>0)。
2)基于第1步挖掘到的频繁项集,继续挖掘出全部的频繁关联规则。置信度大于给定最小置信度minConf的关联规则称为频繁关联规则(FrequentAssociationRule)。在这一步,首先需要从频繁项集入手,首先挖掘出全部的关联规则(或者称候选关联规则),然后根据minConf来得到频繁关联规则。
其中第二步相对简单所以人们在事务数据库中寻找大项集这一问题上做了大量研究。重复扫描数据库和规模巨大的候选集是算法的两大瓶颈。
如何在内存中表达数据集以减少扫描数据库次数以及利用MIC并行架构提高算法的效率是加速算法的关键。
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法Apriori使用一种称作逐层搜索的迭代方法,“K-1项集”用于搜索“K项集”。
首先,找出频繁“1项集”的集合,该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3。如此下去,直到不能找到“K项集”。找每个Lk都需要一次数据库扫描。
核心思想是:连接步和剪枝步。连接步是自连接,原则是保证前k-2项相同,并按照字典顺序连接。剪枝步,是使任一频繁项集的所有非空子集也必须是频繁的。反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK中删除。
简单的讲,1、发现频繁项集,过程为(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集重复步骤(1)-(5)直到不能发现更大的频集。
英特尔(Intel)公司推出的众核(ManyIntegratedCore,MIC)处理器,是面向HPC(HighPerformanceComputing)高性能计算领域,它旨在引领行业进入百亿亿次计算时代,其在计算机体系中,并非欲取代CPU,而是作为协处理器存在。跟通用的多核至强处理器相比,MIC众核架构具有更小的内核和硬件线程,众核处理器计算资源密度更高,片上通信开销显著降低,更多的晶体管和能量,能够胜任更为复杂的并行应用。
IntelMIC产品基于X86架构,MIC芯片通常有数十个精简的x86核心,提供高度并行的计算能力。基于重核的众核处理器,包含50个以上的核心,以及512bit的向量位宽,双精性能超过1TFlops。
MIC拥有极其灵活的编程方式,MIC卡可以作为一个处理器存在,也可以被看作是一个独立的节点。基本的MIC编程模型是将MIC看作一个处理器,中央处理单元(CPU)根据程序的指令,将一部分代码运行在MIC端。此时存在两类设备,即CPU端和MIC众核处理器端。原生的CPU程序通常也可以在MIC芯片上运行,这也意味着对现有程序无需进行大的改动,即可利用MIC的计算资源,充分保护了软件投资。随着开发者们采用较高的并行度(指令、数据、任务、矢量、线程和集群等),英特尔架构处理器常用的重要且已普及化的编程模型可扩展至英特尔MIC架构,而无需改变编程工具。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610084587.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:导入选中的Excel表格到白板软件中的方法
- 下一篇:一种音量调整方法及终端