[发明专利]基于项集权值比剪枝和关联规则前件扩展的文本检索方法在审
申请号: | 201811646505.X | 申请日: | 2018-12-30 |
公开(公告)号: | CN109710777A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F16/13 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于项集权值比剪枝和关联规则前件扩展的文本检索方法,首先对用户查询进行初检,构建初检用户相关文档集,通过项集权值比较从所述文档集中挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值、项集的项目权值最大者或最大项目权值对候选项集剪枝,通过计算项集的卡方分析和置信度,从频繁项集提取含有原查询词项的特征词关联规则,将后件是原查询词项的关联规则前件作为扩展词,扩展词与原查询词组合为新查询再次检索文档得到最终检索结果文档返回给用户。本发明通过候选项集剪枝,提高挖掘效率,挖掘出与原查询相关的扩展词,提高和改善文本信息检索性能,具有较好的应用价值和推广前景。 | ||
搜索关键词: | 关联规则 剪枝 查询词 前件 频繁项集 文本检索 候选项 文档 挖掘 文本信息检索 查询 检索结果 检索文档 用户查询 词组合 计算项 特征词 文档集 新查询 置信度 最小项 构建 返回 应用 分析 | ||
【主权项】:
1.基于项集权值比剪枝和关联规则前件扩展的文本检索方法,其特征在于,包括下列步骤:(1)用户查询首次检索文档集得到初检前列文档;(2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检用户相关文档集;(3)预处理初检用户相关文档集,构建文档索引库和特征词库:(4)挖掘文本特征词1_频繁项集L1,具体步骤如下:(4.1)从特征词库中提取特征词作为1_候选项集C1;(4.2)扫描文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];(4.3)计算最小权值支持阈值MWS;所述MWS计算公式如式(2)所示:MWS=n×ms (2)式(2)中,所述ms为最小支持度阈值,n为文档索引库的文本文档总数;(4.4)如果w[C1]≥MWS,则C1就文本特征词1_频繁项集L1,添加到频繁项集集合FIS;(5)挖掘文本特征词2_频繁项集L2,具体步骤如下:(5.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2;(5.2)剪枝不含原查询词项的2_候选项集C2;(5.3)对余下的2_候选项集C2,扫描文档索引库分别统计C2的项集权值w[C2];(5.4)如果w[C2]≥MWS,则C2就文本特征词2_频繁项集L2,添加到频繁项集集合FIS;(6)挖掘文本特征词k_频繁项集Lk,所述k≥2;具体步骤如下:(6.1)采用Aproiri连接方法将文本特征词(k‑1)_频繁项集Lk‑1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;(6.2)扫描文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到所述最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);(6.3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck;(6.4)对于余下的Ck,如果w[Ck]≥MWS×k并且wmin[(iq)]≥minRate×wmax[(ip)],那么,该Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minRate为最小项集权值比阈值;所述wmin[(iq)]为最小项目的项集权值,wmax[(ip)]为最大项目的项集权值,wmin[(iq)]和wmax[(ip)]的含义如下:假设k_候选项集Ck=(i1,i2,…ik),Ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik),在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)],将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应的1_项集记为(ip),将与Ck对应的所述项目ip称为Ck的最大项目;所述q∈(1,2,…,k),p∈(1,2,…,k);(6.5)如果文本特征词k_频繁项集Lk为空集,则特征词频繁项集挖掘结束,转入如下步骤(7),否则,k加1后转入步骤(6.1)继续顺序循环;(7)从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式:(7.1)构建Lk的所有真子集项集集合;(7.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
qt∪Et=Lk,
QTL为原查询词项集合,Et为不含原查询词项的特征词项集Et,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(3)所示:
式(3)中,w[(qt)]为项集qt在文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为文档索引库的文本文档总数;(7.3)如果Chis(qt,Et)>0,则计算特征词关联规则置信度WConf(Et→qt);若WConf(Et→qt)≥最小置信度阈值mc,则关联规则Et→qt是强关联规则模式,添加到关联规则模式集合AR;所述WConf(Et→qt)的计算公式如式(4)所示:
式(4)中,w[(Et)],k2,w[(qt,Et)],kL的定义同式(3);(7.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的特征词关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(7.1)依序执行进行另一个Lk的关联规则模式挖掘,否则,转入步骤(7.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘关联规则模式,则结束关联规则模式挖掘,转入如下步骤(8);(8)从关联规则模式集合AR中提取每个关联规则Et→qt的前件Et作为扩展词,计算所述扩展词权值we,计算公式如式(5)所示:
式(5)中,max(WConf())和max(Chis())分别表示关联规则置信度和卡方值的最大值,
表示项集中最小项目的项集权值和最大项目的项集权值的比值的最大值,即当扩展词重复出现在多个关联规则模式时,分别取上述3个度量值的最大值;(9)扩展词与原查询词组合为新查询再次检索文档得到最终检索结果文档返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811646505.X/,转载请声明来源钻瓜专利网。
- 上一篇:相册的知识图谱的构建方法
- 下一篇:一种多媒体信息处理方法、装置及存储介质