[发明专利]用于发现文本词间关联规则的完全加权模式挖掘方法有效

专利信息
申请号: 201410096985.2 申请日: 2014-03-14
公开(公告)号: CN103838854B 公开(公告)日: 2017-03-22
发明(设计)人: 黄名选 申请(专利权)人: 广西财经学院
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 广西南宁公平知识产权代理有限公司45104 代理人: 韦锦捷
地址: 530003 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 发现 文本 关联 规则 完全 加权 模式 挖掘 方法
【权利要求书】:

1.一种用于发现文本词间关联规则的完全加权模式挖掘方法,其特征在于,包括如下步骤:

(1)完全加权数据预处理阶段:将待处理的完全加权数据进行预处理,构建完全加权数据库和项目库;

(2)完全加权频繁项集和负项集挖掘阶段,包括以下步骤2.1和步骤2.2:

2.1、从项目库中提取完全加权候选1_项集,并挖掘完全加权频繁1_项集;具体步骤按照2.1.1~2.1.3进行:

2.1.1、从项目库中提取完全加权候选1_项集;

2.1.2、累加完全加权候选1_项集在完全加权数据库中的权值总和,计算其支持度;

2.1.3、将完全加权候选1_项集中支持度大于或等于最小支持度阈值的完全加权频繁1_项集加入到完全加权频繁项集集合;

2.2、从完全加权候选2_项集开始,按照步骤2.2.1~2.2.4进行操作:

2.2.1、将完全加权频繁(i-1)_项集进行Apriori连接,生成完全加权候选i_项集;所述的i≥2;

2.2.2、累加完全加权候选i_项集在完全加权数据库中的权值总和,计算其支持度;

2.2.3、从完全加权候选i_项集中将其支持度不小于支持度阈值的频繁i_项集取出,存入完全加权频繁项集集合,同时,将其支持度小于支持度阈值的完全加权负i_项集存入完全加权负项集集合;

2.2.4、将i的值加1,如果频繁(i-1)_项集为空就转入(3)步,否则,继续2.2.1~2.2.3步骤;

(3)剪枝阶段:通过剪枝阶段获得有趣的完全加权频繁项集和负项集:

3.1、对于频繁项集集合中的每一个频繁i-项集awLi,计算IAWFI(awLi)值,剪除其IAWFI(awLi)值为假的频繁项集,剪枝后得到有趣的完全加权频繁项集集合;

3.2、对于完全加权负项集集合中的每一个负i-项集awNi,计算IAWNI(awNi)值,剪除其IAWNI(awNi)值为假的负项集,剪枝后得到有趣的完全加权负项集集合;

(4)从有趣的完全加权频繁项集集合中挖掘有效的完全加权正负关联规则,包括以下步骤:

4.1、从有趣的完全加权频繁项集集合取出频繁项集awLi,求出awLi的所有真子集,构建awLi的真子集集合,然后进行下列操作:

4.2.1、从awLi的真子集集合中任意取出两个真子集I1和I2,当I1和I2的交集为空集,I1和I2的项目个数之和等于其原频繁项集的项目个数,以及I1和I2的支持度都不小于支持度阈值,则计算频繁项集(I1∪I2)的项内权值比awIWR(I1,I2)及其维数比awIDR(I1,I2);

4.2.2、当数据库中事务记录总数(n)和上述4.2.1步的项内权值比(awIWR(I1,I2))的乘积大于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)>awIDR(I1,I2)),进行如下操作:

4.2.2.1若I1→I2的awCPIR值(awCPIR(I1→I2))不小于置信度阈值minconf,则挖掘出完全加权关联规则I1→I2;若I2→I1的awCPIR值(awCPIR(I2→I1))不小于置信度阈值minconf,则挖掘出完全加权关联规则I2→I1

4.2.2.2若(﹁I1∪﹁I2)的支持度不小于支持度阈值minsup,那么,①如果﹁I1→﹁I2的awCPIR值(awCPIR(﹁I1→﹁I2))不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值(awCPIR(﹁I2→﹁I1))不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→﹁I1

4.2.3、当数据库中事务记录总数(n)和上述4.2.1步的项内权值比(awIWR(I1,I2))的乘积小于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)<awIDR(I1,I2)),进行如下操作:

4.2.3.1若(I1∪﹁I2)的支持度不小于支持度阈值minsup,那么,①如果I1→﹁I2的awCPIR值(awCPIR(I1→﹁I2))不小于置信度阈值minconf,则挖掘出完全加权负关联规则I1→﹁I2;②如果﹁I2→I1的awCPIR值(awCPIR(﹁I2→I1))不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→I1

4.2.3.2若(﹁I1∪I2)的支持度不小于支持度阈值minsup,那么,①如果﹁I1→I2的awCPIR值(awCPIR(﹁I1→I2))不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→I2;②如果I2→﹁I1的awCPIR值(awCPIR(I2→﹁I1))不小于置信度阈值minconf,则挖掘出完全加权负关联规则I2→﹁I1

4.2.4、继续4.2.1~4.2.3步骤,如果awLi的真子集集合中每个真子集都当且仅当被取出一次,则转入4.2.5步;

4.2.5,继续4.1步骤,如果有趣的完全加权频繁项集集合中每个频繁项集awLi都当且仅当被取出一次,则转入第(5)步;

(5)从有趣的完全加权负项集集合中挖掘有效的完全加权负关联规则,包括以下步骤:

5.1、从有趣的完全加权负项集集合取出负项集awNi,求出awNi的所有真子集,构建awNi的真子集集合,然后进行下列操作:

5.2.1、从awNi的真子集集合中任意取出两个真子集I1和I2,当I1和I2的交集为空集,I1和I2的项目个数之和等于其原频繁项集的项目个数,以及I1和I2的支持度都大于或者等于支持度阈值,则计算负项集(I1∪I2)的项内权值比(awIWR(I1,I2))及其维数比(awIDR(I1,I2));

5.2.2、当数据库中事务记录总数(n)和上述5.2.1步的项内权值比(awIWR(I1,I2))的乘积大于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)>awIDR(I1,I2)),进行如下操作:

5.2.2.1若(﹁I1∪﹁I2)的支持度大于或者等于支持度阈值minsup,那么,①如果﹁I1→﹁I2的awCPIR值(awCPIR(﹁I1→﹁I2))大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值(awCPIR(﹁I2→﹁I1))大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→﹁I1

5.2.3、当数据库中事务记录总数(n)和上述5.2.1步的项内权值比(awIWR(I1,I2))的乘积小于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)<awIDR(I1,I2)),进行如下操作:

5.2.3.1若(I1∪﹁I2)的支持度大于或者等于支持度阈值minsup,那么,①如果I1→﹁I2的awCPIR值(awCPIR(I1→﹁I2))大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则I1→﹁I2;②如果﹁I2→I1的awCPIR值(awCPIR(﹁I2→I1))大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→I1

5.2.3.2若(﹁I1∪I2)的支持度大于或者等于支持度阈值minsup,那么,①如果﹁I1→I2的awCPIR值(awCPIR(﹁I1→I2))大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→I2;②如果I2→﹁I1的awCPIR值(awCPIR(I2→﹁I1))大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则I2→﹁I1

5.2.4、继续5.2.1~5.2.3步骤,如果awNi的真子集集合中每个真子集都当且仅当被取出一次,则转入5.2.5步;

5.2.5,继续5.1步骤,如果有趣的完全加权负项集集合中每个负项集awNi都当且仅当被取出一次,则完全加权正负关联规则挖掘结束;

所述的“﹁I1,﹁I2,I1∪﹁I2,I1→﹁I2”等符号中的“﹁”为负相关符号,﹁I1表示在事务处理中不出现I1的事件,称为负项集I1;(I1∪﹁I2)表示一个项集,该项集有子项集I1和负子项集I2;关联规则I1→﹁I2其含义是:如果子集I1的事件出现或者发生,那么子集I2的事件不会出现或者不发生。

2.根据权利要求1所述的用于发现文本词间关联规则的完全加权模式挖掘方法,其特征在于,所述的待处理的完全加权数据预处理的具体步骤为,当待处理的完全加权数据为中文文本数据时,进行分词、去除停用词、提取特征词并计算其权值;当待处理的完全加权数据为英文文本数据时,进行词干提取、排除停用词、词汇分析、提取特征词并计算其权值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410096985.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top