[发明专利]基于项集权值比剪枝和关联规则前件扩展的文本检索方法在审
申请号: | 201811646505.X | 申请日: | 2018-12-30 |
公开(公告)号: | CN109710777A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F16/13 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联规则 剪枝 查询词 前件 频繁项集 文本检索 候选项 文档 挖掘 文本信息检索 查询 检索结果 检索文档 用户查询 词组合 计算项 特征词 文档集 新查询 置信度 最小项 构建 返回 应用 分析 | ||
本发明公开了基于项集权值比剪枝和关联规则前件扩展的文本检索方法,首先对用户查询进行初检,构建初检用户相关文档集,通过项集权值比较从所述文档集中挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值、项集的项目权值最大者或最大项目权值对候选项集剪枝,通过计算项集的卡方分析和置信度,从频繁项集提取含有原查询词项的特征词关联规则,将后件是原查询词项的关联规则前件作为扩展词,扩展词与原查询词组合为新查询再次检索文档得到最终检索结果文档返回给用户。本发明通过候选项集剪枝,提高挖掘效率,挖掘出与原查询相关的扩展词,提高和改善文本信息检索性能,具有较好的应用价值和推广前景。
技术领域
本发明属于信息检索领域,具体是基于项集权值比剪枝和关联规则前件扩展的文本检索方法。
背景技术
当前,随着互联网技术和数字经济的发展,网络信息资源迅猛增长,成为了隐含巨大经济价值和研究价值的网络大数据。如何高效、准确地从信息的汪洋大海里找到更多所需的信息,一直是信息检索领域研究的热点问题。当前出现的web搜索引擎在一定程度上缓解了人们在互联网检索信息的困难,但是,目前的搜索引擎或者web信息检索系统往往是基于关键词机械式符号匹配的检索,很难避免信息过载和词不匹配等问题,例如,查询词是“电脑”,尽管“计算机”描述的是相同的含义,但是,“电脑”、“计算机”在信息检索系统里被认为是不同的检索词,这样,仅仅含有关键词“计算机”,而不含“电脑”的文档不能被检索出来,这是因为词不匹配的原因。
发明内容
为了解决上述问题,本发明提出基于项集权值比剪枝和关联规则前件扩展的文本检索方法,采用项集权值比进行项集剪枝技术,挖掘效率得到提高,采用关联规则前件扩展方法,能挖掘出与原查询相关的扩展词,可以解决信息检索系统中词不匹配问题,提高和改善文本信息检索性能,具有较好的应用价值和推广前景。
本发明的技术方案如下:
基于项集权值比剪枝和关联规则前件扩展的文本检索方法,包括下列步骤:
(1)用户查询首次检索文档集得到初检前列文档。
(2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检用户相关文档集。
(3)预处理初检用户相关文档集,计算初检用户相关文档集特征词权值,构建文档索引库和特征词库:
初检用户相关文档集预处理要根据不同语种采用相应的预处理方法,例如,对于英文文档,预处理方法是:去除英文停用词,采用Porter程序(详细见网址:http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干,计算英文特征词权值;对于中文文档,预处理方法是:去除中文停用词,对中文文档进行分词后提取中文特征词,计算中文特征词权值,计算公式如式(1)所示:
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频,idfj是逆文档频度(Inverse Document Frequency)。
(4)挖掘文本特征词1_频繁项集L1,具体步骤如下:
(4.1)从特征词库中提取特征词作为1_候选项集C1;
(4.2)扫描文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811646505.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:相册的知识图谱的构建方法
- 下一篇:一种多媒体信息处理方法、装置及存储介质