[发明专利]一种基于知网HowNet的查询扩展方法和装置在审
| 申请号: | 201611265757.9 | 申请日: | 2016-12-30 |
| 公开(公告)号: | CN108268535A | 公开(公告)日: | 2018-07-10 |
| 发明(设计)人: | 陈城;胡振宇;陶云祥 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张振伟;姚开丽 |
| 地址: | 215163 江苏省苏州市高*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 词条 语义信息 查询词 查询扩展 语义相似度 词性 方法和装置 关系符号 规则确定 解析结果 实词 预设 解析 筛选 检查 | ||
本发明公开了一种基于知网HowNet的查询扩展方法,包括:获取初始查询词,检查初始查询词是否属于HowNet的词条,属于HowNet的词条,则确定初始查询词对应的词条的词性,词条的词性为实词,则提取词条的语义信息;对语义信息进行解析,确定语义信息包含的第一基本义原项,或确定语义信息包含的第一基本义原项,以及以下信息的至少一种:其他基本义原项、关系义原项和关系符号项;基于语义信息的解析结果和预设的词集确定规则确定词条对应的初始扩展词集;计算初始查询词与初始扩展词集中每个初始扩展词之间的语义相似度值,筛选出语义相似度值大于设定阈值的词作为最终的扩展词集。本发明还公开了一种基于知网HowNet的查询扩展装置。
技术领域
本发明涉及搜索技术,尤其涉及一种基于知网HowNet的查询扩展方法和装置。
背景技术
大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析判断用户需求,实现更好的用户体验和广告匹配。搜索引擎将文档等非结构化海量数据通过建立索引来对外提供服务,其核心是汉语词法分析系统(ICTCLAS),通过对自然语言、数字、日期、字符串等进行检索,建立索引。当用户进行检索时,基于索引,搜索引擎将这些数据聚合,提供给用户,从而构建搜索引擎的服务。
查询扩展则是词法分析的一种,目前应用较多的有全局分析、局部分析、局部上下文分析等方法。
基于全局分析的查询扩展方法,包括:对全部文档中的词进行相关分析,并根据共现率等构造叙词表,最后从该表中选取和初始查询关联程度较高的词加入到扩展词集中。该方法假设在扩展时文档集中相关的两个词往往同时出现。此方法不依赖于初始查询的全局知识库,而是需要所有文档集的统计信息如共现率等,或经过自动或人工创建的关联性词表,找到与原始查询相似性最高的词从而提高检索性能。
基于局部分析的查询扩展方法是通过两次查询检索来完成查询扩展;可以包括:检索获得前n篇与初始查询最相关的文档集得到扩展词集,再根据扩展词集进行检索,获得检索结果。
局部上下文分析方法是通过分析词共现率来筛选与初始查询相关的扩展词。共现率是指上下文中的两个词语共同出现的频率。当一个词和原始查询的共现率越大,则认为该词和原始查询的相关度就越高。可以包括:根据局部分析的方法检索得到与原始查询最相关的前n篇段落;通过处理此n篇文档得到与原始查询最相关的词;对相关度进行降序排列,把前n个词通过1.0-0.9*i/m进行加权加入到扩展词集中,其中i为备选词的序列,m为段落集数目。
上述方法分别具有以下缺点:
基于全局分析的查询扩展方法由于计算量大,比较适用于小范围的文献检索,不适合海量数据检索,虽能提高查全率,但查准率会降低,且查询效率较低。该方法在实际应用中效果不理想,主要原因是其聚类算法不能解决词的歧义性问题。当查询词有多种意思时,该方法会将同一个词加入到多个不同的聚类中,从而造成计算量过大、检索性能下降等后果。
基于局部分析的查询扩展方法处理的文档数相对较少,所以计算量也较少,效果比较稳定。该方法的不足之处在于,假如初始检索得到的文档和原查询的关联度不高,则经过扩展后的检索结果反而不好;由于该方法对实时处理较难实现,应用在web上可能性不大。
局部上下文分析方法仅处理排名靠前的段落,所以计算量比全局分析要小得多。但也有缺点,假如初次查询返回的文档与原始查询无关,那会出现扩展词集中有与原始查询无关的词的情况;另外,对于多义词的情况,此方法处理的效果不是很好。
发明内容
有鉴于此,本发明实施例期望提供一种基于知网HowNet的查询扩展方法和装置,获得更为准确、质量更高的扩展词集,提高检索效率和准确率。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种基于知网HowNet的查询扩展方法,所述方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团公司,未经中移(苏州)软件技术有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611265757.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:传播影响力计算方法及装置
- 下一篇:数据过滤方法及装置





