[发明专利]文本数据查询方法及装置在审
申请号: | 201710081024.8 | 申请日: | 2017-02-15 |
公开(公告)号: | CN108427686A | 公开(公告)日: | 2018-08-21 |
发明(设计)人: | 黄杰 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇;王宝筠 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本数据 查询 关键词序列 文本 搜索 用户输入关键词 查询数据库 输入关键词 搜索系统 用户操作 用户确定 预设条件 自动查询 近义词 构建 预设 近似 | ||
本发明公开了一种文本数据查询方法及装置,获取待查询文本,从待查询文本中提取多个关键词,构建每个关键词对应的关键词序列,该关键词序列中至少包括关键词以及关键词的至少一个近义词,基于满足预设条件的关键词序列在预设查询数据库中进行文本数据查询,实现了文本数据的自动查询,而不需要用户输入关键词,从而提高文本数据的搜索速度。也就是说,基于本发明提供的文本数据查询方法及装置,用户只要将待查询文本输入搜索系统即可查询到与待查询文本近似的文本数据,不再需要用户确定并输入关键词,在简化用户操作的同时提高文本数据的搜索速度。
技术领域
本发明涉及数据处理技术领域,更具体地说,涉及一种文本数据查询方法及装置。
背景技术
在如今的数据量爆发的时代,每个行业每天都会产生百万,甚至数亿的文本(如,日志、文档等等)。因而,如何在海量数据的情况下,快速准确地搜索到预期的文本,就成为当下的研究热点。
目前,当需要查找与一篇文本相近似的文本数据时,现有的搜索方法是,用户根据经验确定一个或多个关键词,将确定的关键词输入到搜索引擎进行搜索。发明人在实现本发明的过程中发现,传统的文本数据搜索方法耗费的时间比较长。
因此,如何提高文本数据的搜索速度成为亟待解决的问题。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的搜索方法及装置。
为了实现上述目的,本发明提供了如下技术方案:
一种文本数据查询方法,包括:
获取待查询文本,从所述待查询文本中提取多个关键词;
对所述关键词进行处理,得到每个所述关键词对应的关键词序列,所述关键词序列中至少包含所述关键词及所述关键词的至少一个近义词;
从所述关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列;
基于所述待查询关键词序列在预设查询数据库进行文本数据查询。
上述方法,优选的,在从所述待查询文本中提取多个关键词之前,所述方法还包括:
对所述待查询文本进行聚类,得到所述待查询文本所属的领域;
从所述待查询文本中提取多个关键词,包括:
从所述待查询文本中提取所述待查询文本所属领域的多个代表词,将所述代表词作为所述关键词。
上述方法,优选的,所述对所述关键词进行处理,得到每个所述关键词对应的关键词序列,包括:
对每个所述关键词进行解析,得到每个所述关键词的含义;
从预先采集的海量文本中提取多个词语;
计算每个所述关键词的含义与从所述海量文本中提取的词语的含义的语义相似度;
如果所述语义相似度大于预设相似度阈值,则确定对应的词语为所述关键词的近义词;
根据所述关键词和所述关键词的近义词得到所述关键词对应的关键词序列。
上述方法,优选的,所述关键词序列中包含权值参数,所述权值参数根据所述关键词在所述待查询文本中的重要程度设定,所述从所述关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列,包括:
根据所述关键词序列的权值参数的大小,对所述关键词序列进行排序;
从排序后的关键词序列中选择权值参数较大、且数量为预设数量的关键词序列,作为待查询关键词序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710081024.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能应答系统自动应答获取方法
- 下一篇:一种用户数处理方法及装置