[发明专利]一种数据搜索中的纠错装置及其方法在审
申请号: | 201410447009.7 | 申请日: | 2014-09-03 |
公开(公告)号: | CN104268157A | 公开(公告)日: | 2015-01-07 |
发明(设计)人: | 关涛;于立柱 | 申请(专利权)人: | 乐视网信息技术(北京)股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 搜索 中的 纠错 装置 及其 方法 | ||
技术领域
本发明涉及数据搜索技术领域,尤其涉及一种数据搜索中的纠错装置及其方法。
背景技术
随着互联网技术的发展,网络信息数据量也越来越大,比如视频网站中大量的视频信息,网站论坛中大量用户的发布信息,以及用户的历史海量日志。为了实现某一操作目的,需要在大数据量的网络信息中获得满足需求的数据。
现有的数据搜索技术多采用基于搜索关键词(query)进行搜索,由搜索引擎服务器根据输入的搜索关键词,在预先建立的数据索引中进行搜索,然后将该索引数据呈现给用户。但是,搜索关键词由于输入的随意性和不规范性,很容易发生错误。而错误的搜素关键词会导致无法搜索到相应的搜索结果或者搜索到错误的搜索结果。
为了区分搜索关键词中的错误的搜索关键词,现有技术通常将所有搜索关键词进行两两比较,计算所有搜索关键词的两两相似度,即可找出哪些是错误的搜索关键词,以及对应的正确搜索关键词。通过这样的方式实现搜索关键词的纠错,保证搜索的准确性,但是对所有搜索关键词两两比较的搜索关键词纠错方式计算量庞大,计算效率低下。
因此,如何提高对搜索关键词进行纠错的效率成为数据搜索技术中亟待解决的技术问题。
发明内容
有鉴于此,本发明提供一种数据搜索中的纠错装置及其方法,其对搜索关键词进行纠错的方式计算量小,计算效率高。
本发明提供一种数据搜索中的纠错装置,包括:
关键词统计模块,用于对所有搜索关键词进行统计,获得所述搜索关键词的第一特征;
关键词插入模块,用于将所述搜索关键词根据其第一特征插入到预先构建的分类数据结构中,所述分类数据结构的每个节点存放N个搜索关键词,所述N为大于或者等于1的自然数;
键值对应模块,用于分别对每个节点所存放的搜索关键词进行两两比较,根据比较结果,确定进行比较的两个搜索关键词中的错误的搜索关键词与对应的用于纠错的搜索关键词,并将所述错误的搜索关键词与对应的用于纠错的搜索关键词组成键值对;
纠错操作模块,用于对接收的搜索关键词根据所述键值对进行纠错操作处理。
本发明还提供一种数据搜索中的纠错方法,包括:
对所有搜索关键词进行统计,获得所述搜索关键词的第一特征;
将所述搜索关键词根据其第一特征插入到预先构建的分类数据结构中,所述分类数据结构的每个节点存放N个搜索关键词,所述N为大于或者等于1的自然数;
分别对每个节点所存放的搜索关键词进行两两比较,根据比较结果,确定所述比较的两个搜索关键词中的错误的搜索关键词与对应的用于纠错的搜索关键词,并将所述错误的搜索关键词与对应的用于纠错的搜索关键词组成键值对;
对接收的搜索关键词根据所述键值对进行纠错操作处理。
由以上技术方案可见,本发明通过对所有搜索关键词进行统计,并根据所述搜索关键词的第一特征将所述搜索关键词插入到建立的分类数据结构中。进而实现分别对分类数据结构中每个节点所存放的搜索关键词进行两两比较,根据比较结果确定错误的搜索关键词与对应的用于纠错的搜索关键词,并将两者组成键值对。本发明根据该键值对对接收的搜索关键词进行纠错。因此,本发明仅需要对分类数据结构中每个节点所存放的搜索关键词进行两两比较,无需对全部搜索关键词进行两两比较,大大减少了对搜索关键词进行纠错的计算量,提高了计算效率。
附图说明
图1是本发明数据搜索中的纠错装置的结构图;
图2是本发明字典树的示意图;
图3是将拼音字母插入字典树的示意图;
图4是本发明键值对应模块的结构图;
图5是本发明数据搜索中的纠错方法的流程图;
图6是本发明步骤S4的流程图。
具体实施方式
通常的数据搜索技术为了避免由于搜索关键词输入的随意性和不规范性造成的搜索错误,通常利用与搜索关键词具有一定相关关系,比如同义词或者更加规范的用词对搜索关键词进行纠错。但是在对搜索关键词进行纠错前,往往需要先建立纠错文件,该纠错文件包括错误的搜索关键词与对应的用于纠错的搜索关键词组成键值对。该键值对的建立需要对所有搜索关键词进行两两比较,计算所有搜索关键词的两两相似度,这样庞大的计算量造成纠错文件建立的计算效率低下。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐视网信息技术(北京)股份有限公司,未经乐视网信息技术(北京)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410447009.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种木质汽车后备箱板
- 下一篇:一种复杂矢量数据的地图快速绘制方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置