[发明专利]一种数据搜索中的纠错装置及其方法在审

专利信息
申请号: 201410447009.7 申请日: 2014-09-03
公开(公告)号: CN104268157A 公开(公告)日: 2015-01-07
发明(设计)人: 关涛;于立柱 申请(专利权)人: 乐视网信息技术(北京)股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 苏培华
地址: 100089 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 搜索 中的 纠错 装置 及其 方法
【说明书】:

技术领域

发明涉及数据搜索技术领域,尤其涉及一种数据搜索中的纠错装置及其方法。

背景技术

随着互联网技术的发展,网络信息数据量也越来越大,比如视频网站中大量的视频信息,网站论坛中大量用户的发布信息,以及用户的历史海量日志。为了实现某一操作目的,需要在大数据量的网络信息中获得满足需求的数据。

现有的数据搜索技术多采用基于搜索关键词(query)进行搜索,由搜索引擎服务器根据输入的搜索关键词,在预先建立的数据索引中进行搜索,然后将该索引数据呈现给用户。但是,搜索关键词由于输入的随意性和不规范性,很容易发生错误。而错误的搜素关键词会导致无法搜索到相应的搜索结果或者搜索到错误的搜索结果。

为了区分搜索关键词中的错误的搜索关键词,现有技术通常将所有搜索关键词进行两两比较,计算所有搜索关键词的两两相似度,即可找出哪些是错误的搜索关键词,以及对应的正确搜索关键词。通过这样的方式实现搜索关键词的纠错,保证搜索的准确性,但是对所有搜索关键词两两比较的搜索关键词纠错方式计算量庞大,计算效率低下。

因此,如何提高对搜索关键词进行纠错的效率成为数据搜索技术中亟待解决的技术问题。

发明内容

有鉴于此,本发明提供一种数据搜索中的纠错装置及其方法,其对搜索关键词进行纠错的方式计算量小,计算效率高。

本发明提供一种数据搜索中的纠错装置,包括:

关键词统计模块,用于对所有搜索关键词进行统计,获得所述搜索关键词的第一特征;

关键词插入模块,用于将所述搜索关键词根据其第一特征插入到预先构建的分类数据结构中,所述分类数据结构的每个节点存放N个搜索关键词,所述N为大于或者等于1的自然数;

键值对应模块,用于分别对每个节点所存放的搜索关键词进行两两比较,根据比较结果,确定进行比较的两个搜索关键词中的错误的搜索关键词与对应的用于纠错的搜索关键词,并将所述错误的搜索关键词与对应的用于纠错的搜索关键词组成键值对;

纠错操作模块,用于对接收的搜索关键词根据所述键值对进行纠错操作处理。

本发明还提供一种数据搜索中的纠错方法,包括:

对所有搜索关键词进行统计,获得所述搜索关键词的第一特征;

将所述搜索关键词根据其第一特征插入到预先构建的分类数据结构中,所述分类数据结构的每个节点存放N个搜索关键词,所述N为大于或者等于1的自然数;

分别对每个节点所存放的搜索关键词进行两两比较,根据比较结果,确定所述比较的两个搜索关键词中的错误的搜索关键词与对应的用于纠错的搜索关键词,并将所述错误的搜索关键词与对应的用于纠错的搜索关键词组成键值对;

对接收的搜索关键词根据所述键值对进行纠错操作处理。

由以上技术方案可见,本发明通过对所有搜索关键词进行统计,并根据所述搜索关键词的第一特征将所述搜索关键词插入到建立的分类数据结构中。进而实现分别对分类数据结构中每个节点所存放的搜索关键词进行两两比较,根据比较结果确定错误的搜索关键词与对应的用于纠错的搜索关键词,并将两者组成键值对。本发明根据该键值对对接收的搜索关键词进行纠错。因此,本发明仅需要对分类数据结构中每个节点所存放的搜索关键词进行两两比较,无需对全部搜索关键词进行两两比较,大大减少了对搜索关键词进行纠错的计算量,提高了计算效率。

附图说明

图1是本发明数据搜索中的纠错装置的结构图;

图2是本发明字典树的示意图;

图3是将拼音字母插入字典树的示意图;

图4是本发明键值对应模块的结构图;

图5是本发明数据搜索中的纠错方法的流程图;

图6是本发明步骤S4的流程图。

具体实施方式

通常的数据搜索技术为了避免由于搜索关键词输入的随意性和不规范性造成的搜索错误,通常利用与搜索关键词具有一定相关关系,比如同义词或者更加规范的用词对搜索关键词进行纠错。但是在对搜索关键词进行纠错前,往往需要先建立纠错文件,该纠错文件包括错误的搜索关键词与对应的用于纠错的搜索关键词组成键值对。该键值对的建立需要对所有搜索关键词进行两两比较,计算所有搜索关键词的两两相似度,这样庞大的计算量造成纠错文件建立的计算效率低下。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐视网信息技术(北京)股份有限公司,未经乐视网信息技术(北京)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410447009.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top