[发明专利]一种无冗余情节规则的抽取方法无效
申请号: | 201310244601.2 | 申请日: | 2013-06-19 |
公开(公告)号: | CN103324712A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 尤涛;杜承烈;徐伟;赵湑 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 冗余 情节 规则 抽取 方法 | ||
技术领域
本发明属于数据挖掘技术中的数据流上情节规则抽取方法,涉及一种无冗余情节规则的抽取方法,提高情节规则的生成质量和生成效率。
背景技术
历史流数据中蕴含着大量的信息,研究历史流数据的潜在规律并应用这些规律找出潜在的情节规则,能够为许多现实应用提供重要的决策支持。
例如,图书馆Web服务器上记载的涉及多个读者对多个文档的阅读序列,例如,<A,A,B,D,A,C,B,B,E,A,B,A,C,E,F>。根据这些阅读序列,需要找出读者们的阅读行为,从而有助于图书馆人员发现文献之间的关联并向读者提供个性化的推荐服务。对于序列<A,A,B,D,A,C,B,B,E,A,B,A,C,E,F>,挖掘出的频繁情节如表1,频繁闭情节如表2,尽管频繁闭情节的个数远远少于频繁情节的个数,但直接由频繁闭情节集仍能产生个数繁多的情节规则,其中存在许多冗余规则。
对于这类序列,如何从序列中找出无冗余的情节是一个很重要的问题。
目前,针对如何找出潜在的无冗余的情节规则这一问题,Li等人采用了直接由频繁闭项集及其生成子来产生无冗余关联规则基的算法,提出的算法DPMiner采用了深度优先的搜索策略,利用倒置的FP树来发现频繁闭项集及其生成子;为了拓展生成子在序列模式挖掘中的应用,Lo等人引入了序列数据库等价类和序列模式生成子的概念,并结合序列数据库等价类的特性,提出了序列模式生成子的挖掘算法GenMiner;采用深度优先的搜索策略和最小且非重叠发生的支持度定义,提出了算法MANEPI以发现给定事件序列上的频繁情节。此外,朱秋生等人提出了算法Extractor,利用非生成子情节的Apriori性质,避免了冗余的情节生成子判断;直接由频繁闭情节及其生成子产生情节规则,提高了情节规则的生成质量和生成效率。
上述情节规则抽取算法在情节规则的生成过程中,当前最优的闭情节及其生成子也会生成冗余情节规则,尽管利用了一些剪切技术来筛选冗余的情节规则,但这种后期的修剪处理增加了算法的时间代价。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种无冗余情节规则的抽取方法,产生无冗余情节规则。
技术方案
一种无冗余情节规则的抽取方法,其特征在于步骤如下:
步骤1:由若干事件按发生时间先后排序的序列定义数据流上的事件序列其中ti<tj(1≤i≤j≤s),扫描事件序列ES,生成事件序列的纵向表达方式,给定最小支持度min_sup和最小可信度;
步骤2:若情节α的支持度大于等于min_sup,则α是一个频繁情节,对于事件序列ES,找出所有的频繁情节;所述min_sup为支持度阈值;
步骤3:对于滑动窗口中的数据,若情节α是频繁的,且α的任何一个真超情节的支持度均不等于α的支持度,则α是一个频繁闭情节,使用闭情节挖掘算法Apriori算法进行单遍挖掘,得到支持度大于阈值的闭情节,将结果保存于一棵全局频繁闭情节树中;
步骤4:对于频繁闭情节α,对于每个的界限ulx(α);当|α/x|是奇数的时候,ulx(α)为α.sup的上限,表示为ux(α),ux(α)的最小值成为α.sup的最小上限,表示为mu(α);当|α/x|是偶数的时候,ulx(α)为α.sup的下限,表示为lx(α),lx(α)的最大值称为α.sup的最大下限,表示为ml(α)。如果α.sup=ml(α)=mu(α),称α为可导集,反之,称α为非可导集。根据给定一个情节,如果它的一个真子情节和它的支持度一致,则该情节及其为前缀的其它任何情节都是可导情节的性质,可以快速挖掘闭情节非可导生成子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310244601.2/2.html,转载请声明来源钻瓜专利网。