[发明专利]基于数据缺失标记的信息检索系统及方法有效
| 申请号: | 201310681804.8 | 申请日: | 2013-12-12 |
| 公开(公告)号: | CN104182435B | 公开(公告)日: | 2017-09-22 |
| 发明(设计)人: | 尹一智;吴宝利;崔载硕 | 申请(专利权)人: | 三星SDS株式会社 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京铭硕知识产权代理有限公司11286 | 代理人: | 韩芳,金光军 |
| 地址: | 韩国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 数据 缺失 标记 信息 检索系统 方法 | ||
技术领域
本发明的实施例涉及一种大容量数据的高效的检索技术。
背景技术
随着电子商务、SNS(Social Networking Services,社会性网络服务)、VoIP(Voice over Internet Protocol,互联网语音传输协议)服务等网络服务系统的普遍化,开发出了用于有效地运用这些服务系统的多种模块。对于服务系统而言,通常要对用户的接入记录、错误发生记录等日志数据或者记录有系统内发生的事件的事件数据等进行储存并管理。这种数据可被用来掌握服务系统或系统内服务组件等的状态并应对发生的问题,或者可以用来事先预测问题的发生。
随着服务系统趋于复杂化、大型化且使用该系统的用户的数量增加,服务系统中记录的数据的容量也将增加。因此为了有效地加以利用,需要从大容量数据中迅速而高效地搜索出所要的关键词。为此,现有技术中的数据管理系统利用了针对数据库中经常被检索的特定行(row)或经常被检索的数据块生成索引(index)的方式。然而事先预测用户会经常检索哪些数据是一件非常困难的事,而且为了索引需要另外消耗硬件资源,因此这种方法尤其在面对大容量数据时存在效率低下的问题。
而且,最近为了管理大容量数据,趋于利用非关系型数据库(NoSQL)等非结构化数据库的,然而对于这种非结构化数据库而言,由于不支持对特定数据的自动索引,因此为了索引,不得不直接运用索引算法。
发明内容
本发明实施例的目的在于提供一种用于有效地检索日志数据等大容量数据的方案。
根据本发明一个实施例的信息检索系统包括:数据库,包含数据被区分为多个数据块而存储的数据存储区域、以及存储各数据块所对应的关键词缺失信息的元数据区域;检索器,从用户处接收包含检索对象关键词以及检索对象区间的关键词检索请求,并利用所请求的关键词而检索存储于所述数据库中的数据;关键词管理器,从所述检索器接收基于关键词检索结果的关键词缺失信息,并在所述数据库中记录所述关键词缺失信息。
所述检索器可从记录于所述数据库中的所述关键词缺失信息中判断出接收的检索对象区间中是否存在关键词缺失区间,且如果存在关键词缺失区间,则可以在检索对象区间当中除了所述关键词缺失区间之外的其余区间内利用检索对象关键词而对所述数据库进行检索。
所述关键词管理器可接收从所述检索器检索到的关键词的检索区间、以及对应检索区间内的关键词缺失信息,并可以将检索到的所述关键词缺失信息标记在对应于多个数据块当中缺失关键词的块的元数据区域。
所述关键词管理器可用于分别管理:关键词历史表,存储在设定的期间内从所述检索器接收的关键词;主过滤器,将存储于所述关键词历史表中的关键词的哈希值进行存储;冲突关键词历史表,在从所述检索器接收的关键词中,将与已存储于所述主过滤器中的关键词发生冲突的关键词进行存储。
所述主过滤器可以是计数布隆过滤器(Counting Bloom Filter)。
所述关键词管理器可通过从所述检索器接收的关键词计算设定的个数的互不相同的哈希值,且在所述主过滤器的各单元(cell)中对应于计算出的哈希值的单元的值均大于0时,可将接收到的关键词存储于所述冲突关键词历史表。
所述关键词管理器在对应于计算出的哈希值的所述主过滤器的单元值中至少有一个为0时,可将对应于哈希值的所述主过滤器的单元值分别增加1,并将接收的关键词存储于所述关键词历史表。
所述关键词管理器可将存储于所述关键词历史表中的关键词缺失信息标记于所述元数据区域。
所述关键词管理器在存储于所述关键词历史表中的特定关键词在已设定的期间内未被使用的情况下,可将对应于所述特定关键词的哈希值的所述主过滤器的单元值减小1,并将所述特定关键词从所述关键词历史表中删除。
所述关键词管理器在存储于所述关键词历史表中的关键词被删除时,可将存储于所述冲突关键词历史表的关键词当中不会再与已存储于所述主过滤器的关键词发生冲突的关键词删除,并将从所述冲突关键词历史表中被删除的关键词登记于所述关键词历史表以及所述主过滤器。
所述检索器可利用所述主过滤器而判断是否标记检索对象关键词缺失信息,且在判断出检索对象关键词缺失信息已标记于所述数据库时,可通过检索所述数据库的元数据区域而获取检索对象关键词缺失区间的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星SDS株式会社,未经三星SDS株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310681804.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新闻搜索方法及装置
- 下一篇:适用于移动终端的网页处理方法和服务器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





