[发明专利]一种基于并发的带间隔约束的Top-k对比序列模式挖掘算法在审
| 申请号: | 201810811661.0 | 申请日: | 2018-07-23 |
| 公开(公告)号: | CN109033341A | 公开(公告)日: | 2018-12-18 |
| 发明(设计)人: | 李刚;邹波;尹心;侯兴哲;周全;胡晓锐;吴彬;周艳玲;籍勇亮;张羽 | 申请(专利权)人: | 国网重庆市电力公司电力科学研究院;国网重庆市电力公司;国家电网有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 文芳 |
| 地址: | 401123 重庆市渝北*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 序列模式挖掘 算法 并发 输入数据集 候选模式 候选元素 扫描数据 数据集合 挖掘结果 序列模式 解释性 枚举树 数据集 支持度 遍历 集合 输出 期望 引入 发现 生产 | ||
本发明公开了一种基于并发的带间隔约束的Top‑k对比序列模式挖掘算法,它包括:按规定格式输入数据集和参数;扫描数据集,生产候选元素的集合及其中全部元素的位置信息;数据集合枚举树遍历全部的候选模式,找出对比度最为显著的k个模式;输出对比度最为显著的k个模式到指定的位置。本发明在带间隔约束的对比序列模式挖掘的基础上,引入top‑k的概念。带间隔约束的top‑k对比序列模式挖掘旨在发现在两个数据集之间支持度变化最为显著的k个对比序列模式,该方法可以避免由于不合适的阈值引起的有用模式的错失;仅需用户设定期望得到的模式的数目即可,使用难度较以往的方法大大降低;同时增强了挖掘结果的可解释性。
技术领域
本发明涉及计算机中数据挖掘领域中的序列数据挖掘,尤其是涉及一种基于并发的、可以解决间隔约束的模式挖掘、使用top-k概念替代具体支持度阈值的对比序列模式挖掘算法。
背景技术
自Agrawal和Srikant提出序列模式挖掘以来,序列模式作为数据挖掘一项重要任务吸引了大批研究者的关注,多种不同的序列模式被陆续提出,如频繁序列模式,对比序列模式,闭合模式,偏序模式,周期模式等等。在实际生活中,序列模式有着广泛的应用。例如,卫生疾控部门可以挖掘传染病传播在时间序列上的模式,其挖掘结果可用于发现传染病时空聚集性暴发规律,进而为防控工作提供参考。生物科学家可以通过分析DNA和蛋白质序列,寻找疾病产生的根源,研发新药物。电力公司通过分析历史用电数据,提高对电力负荷预测的准确度。
序列挖掘中广泛使用的间隔约束的概念让模式的匹配更加灵活。间隔约束是一个由两个非负整数确定的区间,表示序列模式中两个相邻元素间允许间隔的元素数目的最小值和最大值。例如:令间隔约束为[1,3],序列模式P=at,若P能在序列S中匹配,意味S中存在元素a和元素t,并且存在一组at,a在t之前,且两者之间最少间隔1个元素,最多间隔3个元素。
以往的对比序列模式挖掘工作中,用户都需要设定正例支持度阈值α,负例支持度阈值β和间隔约束γ。其目标是在间隔约束下,挖掘出正例支持度大于等于α,并且负例支持度小于等于β的最小化模式,但是这样的挖掘算法有两个问题:(a)用户很难设定合适的支持度阈值,如果设定了不合适的支持度阈值,挖掘出的模式可能不满足用户的期望;(b)使用最小化约束进行剪枝,虽然减少了搜索空间,但导致一些有用的模式被剪掉。
发明内容
有鉴于现有技术的上述缺陷,本发明的目的就是提供一种基于并发的带间隔约束的Top-k对比序列模式挖掘算法,基于并发的任务划分能大幅提高对比序列模式挖掘算法的效率,根据其任务的划分原理,可以较为容易的在Hadoop平台上实现,进一步提高算法效率,提高算法的适用性。
本发明的目的是通过这样的技术方案实现的,一种基于并发的带间隔约束的Top-k对比序列模式挖掘算法,它包括有:
S1:按规定格式输入数据集和参数;
S2:扫描数据集,生产候选元素的集合及其中全部元素的位置信息;
S3:数据集合枚举树遍历全部的候选模式,找出对比度最为显著的k个模式;
S4:输出对比度最为显著的k个模式到指定的位置。
进一步,所述步骤S1输入的数据集合参数包括有:a)正例数据集;b)负例数据集;c)间隔约束;d)k值。
进一步,所述步骤S2具体包括有:
S211:扫描数据集中的正例数据集;
S212:对于输入的序列数据集,按照序列的顺序遍历每条序列,然后根据序列每个位置上的元素的值及其所在的序列编号和在序列中的位置信息更新该位置对应元素在元素集合中的信息;
S213:若该元素不存在,那么将该元素放入集合中,然后将序列编号和在序列中的位置信息也放入该元素对应的信息存储结构中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网重庆市电力公司电力科学研究院;国网重庆市电力公司;国家电网有限公司,未经国网重庆市电力公司电力科学研究院;国网重庆市电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810811661.0/2.html,转载请声明来源钻瓜专利网。





