[发明专利]用于发现文本词间关联规则的完全加权模式挖掘方法有效
| 申请号: | 201410096985.2 | 申请日: | 2014-03-14 |
| 公开(公告)号: | CN103838854B | 公开(公告)日: | 2017-03-22 |
| 发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 广西南宁公平知识产权代理有限公司45104 | 代理人: | 韦锦捷 |
| 地址: | 530003 广西*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 发现 文本 关联 规则 完全 加权 模式 挖掘 方法 | ||
技术领域
本发明属于数据挖掘领域,具体是一种用于发现文本词间关联规则的完全加权正负模式挖掘方法,适用于文本挖掘中特征词关联模式发现以及文本信息检索查询扩展等领域。
背景技术
近20年来,关联规则挖掘得到众多学者的极大兴趣和研究,已经成为数据挖掘研究的一个热点之一,其研究主要集中在基于项目频度挖掘和基于项目权值挖掘等两个方面。
基于项目频度的正负关联模式挖掘的主要特点是平等一致地处理数据库中的项目,以项集在数据库中出现的概率作为支持度挖掘关联模式。基于项目频度的关联规则挖掘存在的缺陷是:只重视项目频度,忽略项目权值,常常导致冗余的、无趣的和无效的关联规则增多。
为了克服上述关联规则挖掘方法的缺陷,基于项目权值的正负关联规则挖掘得到了重视和研究,其引入了项权重,以体现项目之间具有不同的重要性和项目在数据库中具有不同的权值。基于项目权值的正负关联规则挖掘分为加权正负关联规则挖掘和完全加权正负关联规则挖掘。加权正负关联规则挖掘的主要特点是其项目权值体现了项集之间具有不同的重要性,随着研究的深入,加权负关联规则的作用日显突出,在挖掘有利因素的同时也期望发现一些不利因素,通过负关联规则的分析可以达到此目的。加权关联规则挖掘的缺陷是忽略了项目权值在数据库各个事务记录中具有不同权值的情况。将项目权值客观分布于事务记录并随记录变化而变化的数据称为完全加权数据。现有加权关联规则挖掘方法不能适用完全加权数据挖掘,为此,2003年以来,完全加权关联规则挖掘研究得到了关注和研究,当前,完全加权正负关联规则挖掘技术在文本挖掘、信息检索等领域有重要的理论和应用价值。完全加权关联规则挖掘方法能够有效地克服加权关联规则挖掘的缺陷,但还不能解决完全加权负关联规则挖掘技术问题。针对这些问题,本发明对完全加权正负关联规则挖掘进行深入研究,提出一种新的基于项内权值比和维数比的完全加权正负关联规则挖掘方法,应用于文本信息检索查询扩展,可以提高检索性能,应用于文本挖掘,可以发现更加实际合理的正负特征词关联模式。
发明内容
本发明的目的在于针对现有技术存在的不足,提供一种用于发现文本词间关联规则的完全加权模式挖掘方法,丰富基于项目权值挖掘的关联规则挖掘技术成果,解决项完全加权正负关联规则挖掘中的技术难题。该方法在文本挖掘、文本信息检索等领域有重要的理论价值和广阔的应用前景。
本发明实现上述目的所采取的技术方案是:一种用于发现文本词间关联规则的完全加权模式挖掘方法,包括如下步骤:
(1)完全加权数据预处理阶段:
现实世界中,存在海量的完全加权数据,如文本信息数据等。完全加权数据预处理方法要视具体的数据对象而定,例如,对于中文文本数据信息,则要进行分词、去除停用词、提取特征词及其权值计算等预处理方法;对于英文文本数据信息,预处理方法是词干提取、排除停用词、词汇分析、提取特征词及其权值计算等。完全加权数据预处理的结果是构建基于完全加权数据库和项目库;
对于文本数据的特征词权值计算公式是:wij=(0.5+0.5×tfij/maxj(tfij))×idfi,
其中,wij为第i个特征词在第j篇文档的权值,tfij为第i个特征词在第j篇文档的词频,idfi为第i个特征词的逆向文档频度,其值idfi=log(N/dfi),N为文档集中文档总数,dfi为含有第i个特征词的文档数量。
(2)完全加权频繁项集和负项集挖掘阶段,包括以下步骤2.1和步骤2.2:
2.1、从项目库中提取完全加权候选1_项集awC1,并挖掘完全加权频繁1_项集awL1;具体步骤按照2.1.1~2.1.3进行:
2.1.1、从项目库中提取完全加权候选1_项集awC1;
2.1.2、累加完全加权候选1_项集awC1在完全加权数据库(All-Weighted Database,简称AWD)中的权值总和,计算其支持度;
awC1支持度计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410096985.2/2.html,转载请声明来源钻瓜专利网。





