[发明专利]基于模式挖掘与词向量相似度计算的中文查询扩展方法在审

专利信息
申请号: 202010773432.1 申请日: 2020-08-04
公开(公告)号: CN111897922A 公开(公告)日: 2020-11-06
发明(设计)人: 黄名选 申请(专利权)人: 广西财经学院
主分类号: G06F16/33 分类号: G06F16/33;G06F16/332
代理公司: 广西南宁明智专利商标代理有限责任公司 45106 代理人: 林兴宁
地址: 530007 广西壮族*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 模式 挖掘 向量 相似 计算 中文 查询 扩展 方法
【权利要求书】:

1.一种基于模式挖掘与词向量相似度计算的中文查询扩展方法,其特征在于,包括下列步骤:

步骤1.用户查询检索中文文档集得到初检文档集;

步骤2.对初检文档集进行中文分词和去除中文停用词,利用深度学习工具对初检文档集进行词向量语义学习训练得到包括查询词项和非查询词项的词向量集;

步骤3.计算并累加非查询词项与全部查询词项的向量余弦相似度,根据降序排列的相似度值提取前列非查询词项作为词嵌入扩展词,得到词嵌入扩展词集,具体步骤如下:

(3.1)在词向量集中,计算非查询词项(cet1,cet2,…,ceti)与原查询词项集合Q中各查询词项(q1,q2,…,qj)的向量余弦相似度VecCos(cetl,qs),其中,1≤l≤i,1≤s≤j;

(3.2)累加非查询词项和原查询词项集合Q中各查询词项的向量余弦相似度得到总的相似度值,作为非查询词项与原查询词项集合Q的向量余弦相似度VecSim(cetl,Q);

(3.3)对向量余弦相似度VecSim(cetl,Q)排降序,根据所排的降序提取前列Vm个非查询词项作为原查询词项集合Q的词嵌入扩展词,构建词嵌入扩展词集WEETS,并计算词嵌入扩展词权值w(vetl),然后,转入步骤4;

步骤4.从初检文档集中提取前列m篇初检文档作为伪相关反馈文档,构建伪相关反馈文档集,对初检伪相关反馈文档集进行中文分词、去除中文停用词和提取特征词的预处理,并计算特征词权值,最后构建伪相关反馈中文文档库和中文特征词库;

步骤5.采用基于Copulas函数的扩展词挖掘方法对伪相关反馈文档集挖掘关联扩展词AET,建立关联扩展词集;所述基于Copulas函数的关联扩展词挖掘方法具体步骤如下:

(5.1)挖掘1_频繁项集L1:从中文特征词库中提取特征词得到1_候选项集C1,并计算基于Copulas函数的1_候选项集C1支持度Copulas_Support(C1),如果Copulas_Support(C1)不低于最小支持度阈值ms,则将C1作为1_频繁项集L1,并添加到频繁项集集合FIS;

(5.2)挖掘k_频繁项集Lk:由(k-1)_频繁项集Lk-1自连接产生k_候选项集Ck,所述k≥2;当k=2时,如果该Ck不含有原查询词项,则删除该Ck,如果该Ck含有原查询词项,则留下该Ck,然后,留下的Ck计算k_候选项集Ck的支持度Copulas_Support(Ck);当k>2时,则Ck直接计算k_候选项集Ck的支持度Copulas_Support(Ck);如果Copulas_Support(Ck)不低于ms,则将Ck作为k_频繁项集Lk,并添加到FIS;

(5.3)k加1后转入步骤(5.2)继续顺序执行其后步骤,直到产生所述Lk为空集,则频繁项集挖掘结束,转入步骤(5.4);

(5.4)从FIS中任意取出Lk,所述k≥2;

(5.5)从Lk中提取真子集项集Lq和LAet,计算关联规则Lq→LAet基于Copulas函数的置信度Copulas_Confidence(Lq→LAet),且Lq∪LAet=Lk,所述LAet为不含查询词项的真子集项集,所述Lq为含查询词项的真子集项集;

(5.6)挖掘关联规则Lq→LAet:提取Copulas_Confidence(Lq→LAet)不小于最小置信度阈值mc的关联规则Lq→LAet加入到关联规则集AR(Association Rule),然后,转入步骤(5.5),从Lk中重新提取其他的真子集项集Lq和LAet,再顺序进行其后步骤,如此循环,直到Lk的所有真子集项集当且仅当都被取出一次为止,这时转入如步骤(5.4),进行新一轮关联规则模式挖掘,从FIS中再取出任意其他Lk,再顺序进行其后步骤,如此循环,直到FIS中所有k_频繁项集Lk当且仅当都被取出一次为止,这时关联规则模式挖掘结束,转入如下步骤(5.7);

(5.7)从关联规则集AR中提取关联规则后件LAet的特征词作为关联扩展词,得到关联扩展词集AETS,并计算关联扩展词权值wAet,然后,转入步骤6;

步骤6.计算关联扩展词与原查询的向量余弦相似度,提取所述向量相似度值不低于最小相似度阈值的关联扩展词,得到词向量关联扩展词集,具体步骤如下:

(6.1)在词向量集中,计算关联扩展词(Aet1,Aet2,..,Aets)与原查询词项集合Q(所述Q=(q1,q2,…,qj))中各查询词项(q1,q2,…,qj)的向量余弦相似度VecCos(Aetl,qs),其中,1≤l≤i,1≤s≤j;

(6.2)累加关联扩展词与各个查询词的向量相似度值得到的相似度总和作为该关联扩展词与原查询词项集合Q的向量余弦相似度值VecSim(Aetl,Q);

(6.3)提取向量相似度VecSim(Aetl,Q)值不低于最小相似度阈值minVSim的关联扩展词作为词向量关联扩展词,得到词向量关联扩展词集WEAETS,并计算词向量关联扩展词权值w(Avetl);词向量关联扩展词权值w(Avetl)由关联扩展词权值wAet和所述关联扩展词与原查询词项集合Q的向量余弦相似度值VecSim(Avetl,Q)组成;

步骤7.将词嵌入扩展词集WEETS和词向量关联扩展词集WEAETS并集融合,得到最终扩展词FETS(Final Expansion Term Set),并计算最终扩展词权值w(ETl);

步骤8.最终扩展词和原查询组合为新查询,再次检索文档集,实现查询扩展。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010773432.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top