[发明专利]一种基于频域特征的子序列检索方法和系统有效
申请号: | 201711319350.4 | 申请日: | 2017-12-12 |
公开(公告)号: | CN107908593B | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 王建民;黄向东;芮蕾;康荣;王晨 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/14 | 分类号: | G06F17/14;G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 序列 检索 方法 系统 | ||
本发明提供一种基于频域特征的子序列检索方法和系统,检索方法包括:将滑动窗口在数据库的所有序列上依次滑动,滑动窗口任一次滑动获取一个与滑动窗口长度相等的子序列;对每一子序列进行离散傅里叶变换,获取每一子序列对应的频域特征序列,所有子序列对应的频域特征序列构成频域特征序列集合;遍历频域特征序列集合,基于降维规则对频域特征序列集合进行降维,获取基于频域特征的降维表示的序列;通过空间索引方法对降维表示的序列进行检索。本发明能够有效减少虚假匹配结果的数量,使得降维表示后的序列之间的距离更加接近原序列之间的实际距离,进而减小子序列近似查询的响应时间。本发明具备应对大数据的能力,且具有更好的实用价值。
技术领域
本发明涉及计算机数据管理技术领域,更具体地,涉及一种基于频域特征的子序列检索方法和系统。
背景技术
子序列近似查询的一般做法是:输入一个查询序列Q和不相似度阈值ε,输出数据库中所有满足匹配条件的子序列。匹配条件是指匹配序列和查询序列之间的不相似度不超过阈值ε。度量两条序列之间的不相似度的一种常见做法是使用序列距离函数,一种典型的序列距离函数是欧式距离,即给定两个等长序列和它们之间基于欧式距离的不相似度为
子序列近似查询的一种暴力解法是直接检索数据库中的所有子序列,计算并判断每个子序列是否满足匹配条件,找出所有满足匹配条件的子序列后输出结果。这种解法在实际应用中往往是不可行的,因为序列本质上是高维数据,直接处理这些高维数据会带来昂贵的计算和存储成本,并且使得查询响应时间过长而难以接受。
一种常见的替代方法是基于序列降维表示的子序列检索方法:(1)先对查询序列和数据库中序列的所有子序列进行降维表示;(2)然后对降维表示后的子序列进行检索,得到与降维表示后的查询序列相匹配的降维表示后的子序列集合A;(3)最后将集合A还原成原空间对应的子序列集合B,并通过一定的后处理,从子序列集合B中过滤出真正满足匹配条件的子序列集合C。记数据库中实际所有满足匹配条件的子序列集合为D,保证上述方法正确性的关键是要保证集合B是集合D的超集,即集合D中的每一个元素都在集合B中,而集合B中可能包含集合D中没有的元素,从而保证了从集合B中过滤出来的集合C等于集合D,即保证子序列近似查询结果没有遗漏。
一种序列降维表示方法是基于频域特征,其一般思路是首先通过某种方法提取序列的频域特征,构成频域特征序列,然后利用频域特征的性质进行降维表示。提取序列的频域特征的常见做法之一是使用离散傅里叶变换(Discrete Fourier Transform,DFT),例如,一个长度为n的序列的离散傅里叶变换为一个长度为n的频域特征序列其中
离散傅里叶变换具有一些良好的性质,使得当离散傅里叶变换被用在基于频域特征的序列降维表示方法中时,能够最终保证基于序列降维表示的子序列检索方法的正确性。下面进行说明:首先离散傅里叶变换满足帕萨瓦尔定理,即如果是序列的离散傅里叶变换,那么有其次,离散傅里叶变换是一种线性变换,因此如果序列的离散傅里叶变换为序列的离散傅里叶变换为那么序列的离散傅里叶变换为上述两条性质可以推出公式:该公式的意义是:如果将两个等长序列之间的距离定义为欧式距离,那么离散傅里叶变换就具有保距性,即变换前后两个序列之间的距离保持不变。因此,如果对频域特征序列进行降维,选择其中的f维(f<n)进行降维表示,那么降维表示后的两个序列之间的距离满足如下不等式:
该不等式说明降维表示后的序列之间的距离是原序列之间距离的一种保守估计,即如果则一定有因此在做基于距离的子序列近似查询时,所有满足匹配条件的序列在基于离散傅里叶变换进行降维表示之后,仍然满足匹配条件。这个性质被用在基于频域特征的子序列检索方法中,能够保证子序列近似查询结果没有遗漏。
另一方面,由于因此在对降维表示后的序列进行检索时,得到的满足匹配条件的序列还原到原空间时,不一定满足匹配条件即在检索过程中引入了虚假匹配结果,因此检索方法的最后一步往往是通过后处理过滤掉虚假匹配结果。但是如果虚假匹配结果的数量过大,会导致后处理的计算量过大,从而降低方法的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711319350.4/2.html,转载请声明来源钻瓜专利网。