[发明专利]时间序列搜索引擎有效
| 申请号: | 201210293010.X | 申请日: | 2007-10-05 |
| 公开(公告)号: | CN102831214B | 公开(公告)日: | 2017-05-10 |
| 发明(设计)人: | M·鲍姆;D·卡拉索;R·达斯;R·格林;B·哈尔;N·米利;B·墨菲;S·索尔金;A·斯特克特;E·M·斯旺 | 申请(专利权)人: | 斯普兰克公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市金杜律师事务所11256 | 代理人: | 王茂华 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 时间 序列 搜索引擎 | ||
相关申请的交叉引用
本案是国际申请日为2007年10月05日、国际申请号为PCT/US2007/080616、中国国家阶段申请号为200780044899.5的发明专利申请的分案申请。
本申请根据35.U.S.C.§119(e)要求于2006年10月5日提交的名称为“Times Series Search Engine”的美国临时专利申请系列号No.60/828,283的优先权。通过引用将其全文合并于此。
技术领域
本发明总体上涉及信息组织、搜索以及检索,并且更特别地涉及时间序列(time series)数据组织、搜索以及检索。
背景技术
时间序列数据通常是一个或多个连续流中出现的具有时间戳的记录的序列,其表示由离散事件组成的某些类型的活动。示例包括信息处理日志、市场交易以及来自于实时监视器的传感器数据(供应链、军事操作网络或安全系统)。为了理解以及利用发出大量时间序列数据的系统,编制索引、搜索以及呈现相关搜索结果是重要的。
现有的大规模搜索引擎(例如,Google和Yahoo的web搜索)设计为满足对时间性不太敏感类数据的需要,并且该搜索引擎建立在如下假设上,即仅需要在索引库中存储数据的一个状态,例如,Web搜索索引中的URL、客户数据库中的记录或作为文件系统一部分的文档。针对信息的搜索通常基于关键字搜索项而仅检索单个信息的副本:来自于几天前编制索引的Web站点的URL集合、来自于昨天营业结束时的客户记录或指定版本的文档。
相反,考虑来自于如图1所示的典型信息处理环境中的时间序列数据的示例。防火墙、路由器、web服务器、应用服务器和数据库总是生成事件形式的数据流,其中,每秒可能出现数百次或数千次事件。这里,随时间变化的数据行为模式以及历史数据值通常与当前数据值一样重要。目前的搜索方案通常几乎不具有基于时间编制索引、搜索或结果呈现中相关性的概念,并且不符合时间序列数据的需要。
与全文本搜索引擎(全文本搜索引擎对其索引进行组织,从而检索具有最高相关性分数的文档是最有效的)相比,搜索时间序列数据的引擎优选地对索引进行组织,从而对各种时间范围(包括不太近的时间范围)的访问是有效的。例如,与很多现代搜索引擎不同,对于时间序列搜索引擎来说,对特定关键字的前1000个结果进行高速缓存没有显著的益处。
另一方面,鉴于时间序列数据的重复性质,存在对索引构造效率和搜索优化的机会。然而,由于可以从多个不同的源异步地、乱序地收集数据,因此对时间序列数据编制索引进一步复杂化。来自于一个源的数据流可能是数秒前的,而来自于另一个源的数据可以与其他源交织,或者可能比其他源要早数天、数周或数月。而且,数据源时间可能不是彼此同步的,这需要在编制索引后的时间偏移中进行调整。此外,时间戳可以具有几乎无限数量的格式,导致难以标识以及解释。在没有针对位置、格式或时间粒度(例如,日、小时、分钟、秒、亚秒)的标准的情况下,可能很难定位数据内的时间戳。
搜索时间序列数据通常涉及以下能力:有效地将搜索结果限制到指定时间窗以及基于时间的其他元数据(诸如频率、时间间隔分布)以及结果出现总数或类别。基于关键字的搜索通常在重要性方面是次要的,但是其在与基于时间的搜索机制组合时可能是强有力的。搜索时间序列数据需要全新的快速搜索方式。搜索引擎如今允许用户通过最频繁出现的项或数据内的关键字来进行搜索,并且通常几乎没有基于时间搜索的概念。如果存在大量时间序列数据并且具有重复性特征,则用户通常需要由使用基于时间的搜索机制缩小潜在的搜索结果集合开始,然后通过检验结果、选择一个或多个关键字添加到它们的搜索参数。时间帧和基于时间的元数据(比如频率、分布和出现概率)在搜索时间序列数据时是特别重要的,但是利用当前搜索引擎方法很难实现。例如,尝试利用基于Web的新闻站点搜索引擎查找2005年5月10日上午10点到11点之间所有涉及“航天飞机”的报道或同一天中每小时“航天飞机”报道的平均数量。由于关注数据何时出现,基于时间的搜索机制和查询对于搜索时间序列数据可能是有用的。
在特定的小规模领域中,存在某些现有的、基于时间搜索的有限应用。例如,电子邮件搜索如今在很多主流电子邮件程序和基于web的电子邮件服务中可用。然而,搜索限于简单的时间功能,比如,某时间之前、之后或时间范围;数据集合通常是小规模的,并且是来自于单个域的高度结构化的;并且实时编制索引机制仅仅是附加性的,通常需要对交织的新数据重建全部索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于斯普兰克公司,未经斯普兰克公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210293010.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:无线芯片
- 下一篇:用于存储器装置的存储地址重新映射的方法和系统





