[发明专利]一种基于摘要的时间序列数据索引构建方法有效

申请号：	201710051558.6	申请日：	2017-01-20
公开（公告）号：	CN106844664B	公开（公告）日：	2020-04-17
发明（设计）人：	曹朝;曲大成;张林	申请（专利权）人：	北京理工大学
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/2455;G06F16/248
代理公司：	北京理工正阳知识产权代理事务所(普通合伙) 11639	代理人：	毛燕
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于摘要时间序列数据索引构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于摘要的时间序列数据索引构建方法，其特征在于：是将时间序列数据分成小的时间片段，然后用线性拟合的方法压缩表示每个时间片段以形成该片段的摘要，对于压缩后的摘要数据构建树状索引结构；当需要可视化查询时，基于构建的索引结构采用增量式可视化技术而且索引结构建立一次，可供多次查询使用，通过以下步骤实现：

步骤1：基于时间序列数据，初始化系统参数；

其中，系统参数包括时间序列标号、分段最大误差以及树状索引结构中间节点的子节点个数基准、时间序列片段数组以及保存索引结构时初始化内存缓冲区的大小；

其中，时间序列标号，记为i，代表时间序列数据T中第i个时刻，此第i个时刻的值记为v_i，第i时刻记为t_i，下标_i是大于等于0的整数；将原始时间序列分段时最大的误差，即分段最大误差记为ε；树状索引结构中间节点的子节点个数基准记为B，B是一个大于0的整数；时间序列片段数组，记为U，初始化为空；保存索引结构时初始化内存缓冲区的大小，记为X，单位是兆字节；

步骤2：对时间序列数据进行分段，输出时间序列片段并保存到时间序列片段数组中；

步骤3：采用拟合函数对步骤2输出的每一段时间序列片段进行拟合，得到每一段时间序列片段的数据摘要信息，具体为：

将步骤2输出结果，时间序列片段数组U中的每一项采用线性回归进行拟合，并记录每一项的数据摘要信息下标j对应时间序列片段在U中的顺序，j是大于0小于|U|的整数，|U|代表数组U的长度；

其中，t_s和t_e分别代表时间序列片段的开始时刻和结束时刻，v_s和v_e分别表示t_s时刻和t_e时刻的值，e代表用线性拟合后的直线代替时间序列数据产生的误差，即拟合误差，M代表每一时刻的值累加后的和，P代表每一时刻和该时刻的值相乘后累加的和；

v_s根据公式(1)计算，v_e根据公式(2)计算,e根据公式(3)计算，M根据公式(4)计算，P根据公式(5)计算；

v_s＝f(t_s) (1)

其中，f(t_s)代表t_s时刻函数f(t)的值，f(t)代表拟合后直线的函数表达式，用公式(6)表示；

v_e＝f(t_e) (2)

其中，f(t_e)代表t_e时刻函数f(t)的值；

其中，V(t)代表时间序列数据中t时刻对应的值；代表从t_s到t_e时刻对V(t)与f(t)差值的平方求和；

其中，代表从t_s到t_e时刻对V(t)求和；

其中，代表从t_s到t_e时刻对V(t)与t的乘积求和；

f(t)＝ηt+θ (6)

其中η和θ分别为f(t)的拟合斜率和拟合偏置，分别用公式(7)和公式(8)计算：

其中，代表从t_s到t_e时刻对的平方求和，

代表从t_s到t_e时刻对和V(t)的乘积求和；

步骤4：利用步骤3得到的数据摘要信息，构建树状索引结构，具体为：

步骤4将步骤3中每一项数据摘要信息，当作树中最底层节点，自下而上合并产生上层节点，构建树状索引结构；

其中，自下而上合并产生上层节点，即由下一层节点合并产生上一层节点的过程如下：

步骤4.1：顺序读取一个下一层节点到数据缓冲区中，数据缓冲区用来暂时保存读到的节点数据，判断节点数据的数量，并进行相应操作：

4.1A：当数据缓冲区节点数量达到2*B时，跳至步骤4.2；

4.1B：当数据缓冲区节点数量不足2*B且读取的节点不是最后一个节点时，跳回步骤4.1；否则，若数据缓冲区节点数量不足2*B且读取的节点是最后一个节点，跳转至步骤4.5；

步骤4.2：合并相邻两个节点为一个节点,将合并产生节点的拟合误差作为合并代价，计算数据缓冲区中合并任意两个相邻节点的合并代价，采用自下而上的方式，选择合并代价最小的两个节点合并，产生一个合并节点；

其中，将“合并相邻两个节点为一个节点”中相邻两个节点的一个节点记为N₁，另一个节点记为N₂，产生的合并节点记为N_a，且

合并过程是将N₁和N₂的数据摘要信息计算出合并节点N_a的数据摘要信息；

在公式(9)-(20)中，用下标k用来区分不同的节点，即用下标k用来区分不同的节点，即k为1时对应节点N₁，k为2时对应节点N₂，k为a时对应节点N_a；和分别表示节点N_k对应的时间序列片段的开始时刻和结束时刻，和分别表示节点N_k对应的时间序列片段开始时刻的值和结束时刻的值，根据公式(9)计算，根据公式(10)计算；

其中，和分别代表时刻和时刻f_a(t)的值，并分别记为和和分别为节点N_a数据摘要信息中的开始时刻和结束时刻，且节点N_a的开始时刻为节点N₁的开始时刻节点N_a的结束时刻为节点N₂的结束时刻f_a(t)表示对和之间的时间序列片段采用线性回归拟合后直线的函数表达式，用公式(11)表示，

其中，η_a是f_a(t)的拟合斜率，M_a为节点N₁中M₁和节点N₂中M₂相加的和，表示节点N₁对应的时间序列片段的开始时刻，表示节点N₂对应的时间序列片段的结束时刻；

e_a为节点N_a的拟合误差，同时也看作为N₁和N₂的合并代价，拟合误差越小，合并代价越小，反之，拟合误差越大，合并代价越大，e_a根据公式(12)计算；

其中，e₁表示节点N₁的拟合误差，e₂表示节点N₂的拟合误差；f₁(t)表示对节点N₁对应的时间序列片段，采用线性回归拟合后直线的函数表达式，f₂(t)表示节点N₂对应的时间序列片段，采用线性回归拟合后直线的函数表达式；表示节点N₂对应的时间序列片段的开始时刻，表示节点N₁对应的时间序列片段的结束时刻；θ₁、θ₂和θ_a分别是f₁(t)、f₂(t)和f_a(t)的拟合偏置；η₁和η₂分别是f₁(t)和f₂(t)的拟合斜率；M₁和M₂分别表示节点N₁和N₂对应的时间序列片段每一时刻的值累加后的和，且M_a为节点N₁中M₁和节点N₂中M₂相加的和；P₁和P₂分别表示节点N₁和N₂对应时间序列片段每一时刻和对应的值相乘后累加的和；