[发明专利]基于模式挖掘与词向量相似度计算的中文查询扩展方法在审
| 申请号: | 202010773432.1 | 申请日: | 2020-08-04 |
| 公开(公告)号: | CN111897922A | 公开(公告)日: | 2020-11-06 |
| 发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332 |
| 代理公司: | 广西南宁明智专利商标代理有限责任公司 45106 | 代理人: | 林兴宁 |
| 地址: | 530007 广西壮族*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 模式 挖掘 向量 相似 计算 中文 查询 扩展 方法 | ||
本发明提出了一种基于模式挖掘与词向量相似度计算的中文查询扩展方法,其首先通过用户查询检索中文文档集得到初检文档,对初检文档集进行词向量语义学习训练得到包括查询词项和非查询词项的词向量集;然后采用基于Copulas函数的关联扩展词挖掘方法对伪相关反馈文档集挖掘扩展词,建立关联扩展词集;在词向量集中进行两种向量余弦相似度运算,得到词嵌入扩展词集和词向量关联扩展词集,最后将词嵌入扩展词集和词向量关联扩展词集并集融合得到最终扩展词,最终扩展词和原查询组合为新查询,再次检索文档集,实现查询扩展。本发明将关联模式挖掘与词向量学习融合,可挖掘出高质量扩展词,提高信息检索性能,具有较好应用价值和推广前景。
技术领域
本发明涉及一种基于模式挖掘与词向量相似度计算的中文查询扩展方法,属于信息检索技术领域。
背景技术
查询扩展指的是对原查询权重进行修改或者添加与原查询相关的语词,弥补用户查询信息不足,改善信息检索系统查全率和查准率,查询扩展是信息检索领域中解决查询主题漂移和词不匹配问题的核心技术之一。
近十几年来,随着网络技术的发展以及大数据时代的到来,如何从海量的大数据资源中精准检索到用户的所需信息,是国内外学术界和产业界关注的焦点,使得查询扩展技术得到较大的发展,一些新的查询扩展方法被提出,例如,Liu等(Liu C,Qi R,LiuQ.Query expansion terms based on positive and negative association rules[C].Proceedings of the Third international conference on information science andtechnology(ICIST),2013IEEE,Yangzhou,Jiangsu,China,2013:802–808.)提出基于正负关联规则挖掘的扩展词挖掘方法,黄等(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.)提出一种基于矩阵加权关联模式挖掘的查询扩展方法,Roy等(Roy D,Ganguly D,Mitra M,et al.Word vectorcompositionality based relevance feedback using kernel density estimation[C].Proceedings of the 25th ACM International Conference on Information andKnowledge Management.New York:ACM Press,2016:1281-1290.)结合核密度估计提出一种基于词嵌入向量的相关反馈扩展方法,许侃等(许侃,林原,曲忱,等.专利查询扩展的词向量方法研究[J].计算机科学与探索,2018,12(6):972-980.)针对专利文本语料提出4种基于词向量的查询扩展方法,通过计算词向量余弦相似度选择扩展词,等等,实验结果表明,上述查询扩展方法是有效的,在改善信息检索性能方面有获得较好的表现。
然而,现有查询扩展方法还没有最终完全解决信息检索中存在的查询主题漂移和词不匹配等技术问题,针对这些缺陷,本发明将关联模式挖掘与词向量学习融合,提出一种基于模式挖掘与词向量相似度计算的中文查询扩展方法,该方法可应用于搜索引擎和Web信息检索系统,能减少查询漂移和词不匹配等问题,提高信息检索性能。
发明内容
本发明的目的是提出一种基于模式挖掘与词向量相似度计算的中文查询扩展方法,将该方法用于信息检索领域,如实际中文搜索引擎和web信息检索系统,能改善和提高信息检索系统的查询性能,减少信息检索中查询主题漂移和词不匹配问题。
本发明所采用的具体技术方案如下:
一种基于模式挖掘与词向量相似度计算的中文查询扩展方法,包括下列步骤:
步骤1.用户查询检索中文文档集得到初检文档集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010773432.1/2.html,转载请声明来源钻瓜专利网。





