[发明专利]基于动态时间弯曲的数据流模式匹配方法在审
申请号: | 201510226281.7 | 申请日: | 2015-05-06 |
公开(公告)号: | CN104850740A | 公开(公告)日: | 2015-08-19 |
发明(设计)人: | 蔡青林;梅寒蕾;陈岭;孙建伶 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 时间 弯曲 数据流 模式 匹配 方法 | ||
技术领域
本发明涉及数据库、数据挖掘、信息检索等领域,尤其涉及数据流管理和模式匹配。
背景技术
数据流广泛存在于人们的日常生活及工业生产中,如基金或股票的实时交易数据,零售市场的日销量数据,流程工业的传感器监测数据,天文观测数据,航空航天雷达、卫星监测数据,实时天气温度及空气质量指数等。对数据流的模式匹配,在工业界和金融界有着广泛的应用需求。比如,在股票市场的实时交易中,交易员想要从高速流来的实时股票价格数据中,查询出与特定波动模式最相似的价格子序列作为参考,从中获取有价值的知识和启发,完成交易行为。影响模式匹配精度和效率的关键因素是衡量子序列相似性的距离度量方法。
目前工业界最常用的序列相似性度量方法可分为锁步度量和弹性度量。前者采用了一对一的度量方式,即序列T1和T2之间的距离是通过严格比较T1和T2在各自第i个位置的点对,再累加所有点对的距离得到。该类方法最常见的有曼哈顿距离、欧氏距离和切比雪夫距离,它们都是Lp-norms距离在p取不同值时的特例。该类方法具有易实现、计算复杂度低、满足距离三角不等式、无参数等优点;但是,其度量精度对噪声、异常点、幅值伸缩和漂移、相位偏移等非常敏感,并且只能用于度量等长的序列。弹性度量方法采用了一对多的度量方式,即序列T1的一个点可以与T2的多个连续点相对应,通过动态规划方法遍历T1和T2的所有点对之间的距离。该类方法最常见的有动态时间弯曲距离(DTW)和编辑距离的变种(如LCSS、EDR、ERP)等。与锁步度量相比,弹性度量能够实现两条序列的最佳对齐匹配,可以有效处理时间弯曲、相位偏移、幅值伸缩和漂移等基本形态变化,对噪声和异常点具有鲁棒性,因此,弹性度量具有较高的度量精度。但是,该类方法具有较高的计算复杂度,当度量高维序列时会导致高昂的时间开销,难以在工业生产中处理高速的动态数据流。
基于序列特征计算弹性度量是改进其高计算复杂度的一种有效方法,即首先采用数据表示方法将原始序列映射到低维的特征空间,然后进行弹性度量。目前工业界常用的数据表示方法可分为非数据适应性方法和数据适应性方法。对于前者,变换参数不受单独的序列影响,而始终保持不变;该类表示大多基于频谱分解实现,如离散傅里叶变换、离散小波变换、离散余弦变换,它们主要通过对原始序列做相应的频域变换,提取主要的频谱系数作为特征;该类方法各有缺陷,如离散傅里叶变换只能提取总体形态特征而忽略了局部特征,离散小波变换只能处理长度为2的指数次的序列,离散余弦变换的信息丢失较多,对原始数据的重构误差较大。数据适应性表示是指对变换参数的确定需要依赖数据本身;通过增加数据敏感的选择处理过程,可以把大部分非数据适应性方法变为数据适应性方法。该类方法有分段聚集近似、分段线性近似、符号化聚集近似、奇异值分解、主成分分析等,前三种都需要先对原始序列进行分段,然后对每一子段单独处理:分段聚集近似是对各段求平均值;分段线性近似是对各段做线段拟合;符号化聚集近似是在分段聚集近似基础上将每段平均值离散化为符号;由于它们所提取的特征较为单一,使其对序列波动模式的表达能力较弱。奇异值分解和主成分分析是通过对所有序列做统一的特征矩阵分解实现的;这两类方法的典型缺陷是,它们具有很高的计算复杂度,而且分解过程只能在内存完成,数据规模的可扩展性很低。
发明内容
本发明要解决的问题是如何实现在高速动态数据流中实时匹配预设的波动模式,以获取最相似的子序列。为了解决该问题,本发明提出了基于动态时间弯曲的数据流模式匹配方法。
本发明的目的是通过以下技术方案实现的:一种基于动态时间弯曲的数据流模式匹配方法,包括以下步骤:
(1)分段特征抽取,具体包括以下子步骤:
(1.1)对数据流T做移动平滑处理,得到平滑数据流T';
(1.2)基于滑动窗口依次截取T'的相邻3点,并计算平均值,通过判断各点与平均值的大小关系对其编码,得到T的编码序列CT,并定义转折模式表TP_table;
(1.3)顺序扫描CT,对每对相邻编码组合查询TP_table中的转折模式,如果模式匹配,则将该编码组合所在位置作为T的分段点,得到子段Si;
(1.4)对Si做Z-规范化处理,得到规范化的子段Si';
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510226281.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于自适应随机共振的参数搜索范围确定方法
- 下一篇:远程智能诊疗装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用