[发明专利]一种基于word2vec的语义查询扩展方法及装置有效
| 申请号: | 201810179478.3 | 申请日: | 2018-03-05 |
| 公开(公告)号: | CN108491462B | 公开(公告)日: | 2021-09-14 |
| 发明(设计)人: | 章露露;贾连印;李孟娟;丁家满;李晓武;陈文焰;吕晓伟 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 word2vec 语义 查询 扩展 方法 装置 | ||
本发明公开了一种基于word2vec的查询扩展方法及装置,属于信息检索技术领域。本发明方法包括:用户给定查询的预处理步骤:对查询进行分词处理,去除停用词并进行词干还原;扩展词候选集选取步骤:使用word2vec工具选取初始扩展词;建立扩展词表步骤:对扩展词候选集进行过滤,建立实际扩展词表;扩展检索步骤:将用户查询及其扩展词与索引集进行匹配,返回相关文档并排序。本发明提出一种面向扩展词的查询向量生成方法来过滤候选扩展词并构建扩展词表,从而更好的体现扩展词与整个查询的相关性,进而提高查询扩展的效果。
技术领域
本发明涉及一种基于word2vec的语义查询扩展方法及装置,属于信息检索技术领域。
背景技术
查询扩展技术是信息检索领域的一个重要问题。在当前的信息检索模型和系统中,信息都是以字、词或是词组的形式来存储的,当用户给定一个查询后,只有当查询集中的查询词出现在文档中时,才有可能检索到相关的文档。但是在人类的自然语言中,同一个概念经常有很多种不同的表达方式,比如说查找automobile时,如果不进行扩展,那么那些包含car、sedan、Ford等与用户原查询相关度很高但是由于用词不同而无法被检索出来,从而使用户无法得到满意的结果。正是由于这种查询词不匹配问题的存在,用户有时不得不变换查询词才能找到所需要的信息,所以为了减轻用户的这种负担,需要信息检索系统自动的选择一些与查询相关的其他词语来辅助查询,即通过查询扩展技术来解决这种词不匹配的问题。
用户提交一个查询,搜索引擎为了提高用户的检索满意度,通常将查询扩展作为一个必不可少的模块,目前常用的查询扩展方法主要有以下几种:
1、基于语义知识词典的查询扩展方法:
基于语义知识词典的方法主要是借助WordNet、HowNet或其他的同义词词林等语义知识词典,选出与查询词存在一定语义关联性的词来进行扩展,这种方法的依据一般是查询词的上下义词、同义词等,此方法过分依赖于完备的语义体系,而且独立于待检索的语料集,因此选出来的扩展词通常难以反映语料集的特性,难以取得好的查询效果。
2、基于全局分析的查询扩展:
全局分析是首先对全部文档中的词或词组进行相关分析,计算每对词的关联程度,然后再将与查询词关联性最高的词加入到初始查询中生成新的查询。这种方法的优点是可以最大限度的探求词之间的关系,特别是在建立词典之后能以较高的效率进行查询扩展;不足的是当文档集很大时,建立全部的词关系词典不论是在时间还是空间上往往都是不大可行的,而且文档集改变的话更新的代价更为巨大。
3、基于局部分析的查询扩展:
局部分析方法主要是利用二次检索的方法解决扩展问题,利用初次给定的查询直接检索,得到与原查询最相关的n篇文档作为扩展词的来源,在这n篇文档里找与原查询最相关的词加入到初始查询中来建立新的查询。目前比较流行的基于局部分析的查询扩展方法是伪相关反馈,它是在相关反馈的基础上发展起来的,这两种反馈的不同在于相关反馈对初次检索的结果需要由用户判定,将用户认为的相关文档作为扩展词的来源,而伪相关反馈不需要与用户交互,直接将返回的前n篇文档认为是相关文章。虽然局部分析方法是目前应用最广泛的查询扩展方法,但是它的不足之处在于当初次检索的文档排在前面的与原查询相关度不大时,容易将大量无关的词加入查询,造成“查询漂移”问题。
随着Word2Vec、Glove等语义模型的提出,近年来词嵌入技术在自然语言处理的多个领域引起了众多研究者的关注。通过word2vec、Glove提供的训练模型训练得到的词向量反映了自然语言中的语义和语法关系,可以通过计算词向量之间的余弦值来判断词项之间的相似性,因此可很好的用于查询扩展。
目前基于Word2Vec的查询扩展的研究工作,但多数工作多存在以下主要两个的不足:
(1)在构建扩展词表时,仅选取与查询词相关的词作为扩展词,而没有考虑到与整个查询的相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810179478.3/2.html,转载请声明来源钻瓜专利网。





