[发明专利]时序相似性查询和时序存储的方法、装置、介质及设备在审
| 申请号: | 202111022473.8 | 申请日: | 2021-09-01 |
| 公开(公告)号: | CN113742398A | 公开(公告)日: | 2021-12-03 |
| 发明(设计)人: | 俞自生;李瑞远 | 申请(专利权)人: | 京东城市(北京)数字科技有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/9535;G06Q40/04 |
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李永叶 |
| 地址: | 100086 北京市海淀区知*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 时序 相似性 查询 存储 方法 装置 介质 设备 | ||
本发明实施例涉及一种时序相似性查询和时序存储的方法、装置、介质及设备,该时序相似性查询方法包括参数确定步骤,确定查询时序的近邻距离参数,并将查询时序按照预定周期划分为多个查询子时序;时序剪枝步骤,根据近邻距离参数和各查询子时序的极值确定各查询子时序的剪枝阈值,根据该剪枝阈值对各查询子时序进行剪枝处理;候选确定步骤,将待查询的时序数据集中落入各查询子时序的经过剪枝处理后的区域内的时序确定为候选子时序,并将隶属于时序数据集中同一时序的候选子时序合并为候选时序;查询选取步骤,计算各候选时序与查询时序之间的第一相似度,并按照第一相似度从高到低的顺序选取目标数量的候选时序作为时序相似性查询结果。
技术领域
本发明涉及计算机领域,尤其涉及一种时序相似性查询和时序存储的方法、装置、介质及设备。
背景技术
时序相似性查询是一种时序分析算子,常用于推荐和聚类,例如在推荐应用中,可以在股票市场实时查询与给定股票最相似的股票以用于推荐,又如在聚类应用中,电力部门可以查询按天用电量相似的家庭用于聚类分析。现有技术中针对小规模数据的时序相似性查询,通过将给定时序与数据库中所有数据进行两两相似性计算后取最相似的若干条数据来实现。然而,随着大数据的广泛应用,由于时序数据基数大、维度高,且基数和维度随着时序数据不断产生而不断增加,使得计算时序数据两两之间相似性的耗时也随之增加,即使采用仅需要扫描一遍数据库的线性解决方案,耗时也是难以接受的,这给时序相似性查询带来了相当大的难度。
在实现本发明的过程中,发明人发现相关技术中至少存在如下技术问题:相关技术中分布式思想和局部敏感哈希被应用于解决大数据背景下存在的上述困难,但仍然存在严重的效率问题。主要体现在如下三个方面:首先,利用现有分布式思想来解决时序数据基数大的问题时,由于需要预构建索引,导致耗时大,且由于缺乏有效的过滤和剪枝,导致执行了对大量不必要数据的扫描,极大增加了查询负担,降低了查询效率,其次,利用局部敏感哈希解决时序数据维度高的问题时,无法查询精确解,查询精度低,最后,利用分布式思想来解决基数和维度不断增加的问题时,需要不断地全局更新或重建索引,耗时极大。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明的实施例提供了一种时序相似性查询和时序存储的方法、装置、介质及设备。
第一方面,本发明的实施例提供了一种时序相似性查询方法,上述方法包括参数确定步骤,确定查询时序的近邻距离参数,并将上述查询时序按照预定周期划分为多个查询子时序;时序剪枝步骤,根据上述近邻距离参数和各查询子时序的极值确定各查询子时序的剪枝阈值,根据上述各查询子时序的剪枝阈值对各查询子时序进行剪枝处理;候选确定步骤,将待查询的时序数据集中落入各查询子时序的经过剪枝处理后的区域内的时序确定为候选子时序,并将隶属于时序数据集中同一时序的候选子时序合并为候选时序;查询选取步骤,计算各候选时序与上述查询时序之间的第一相似度,并按照上述第一相似度从高到低的顺序选取目标数量的候选时序作为时序相似性查询结果。
根据本发明的实施例,在上述参数确定步骤中,上述确定查询时序的近邻距离参数,包括:获取查询时序和待查询的时序数据集,并确定目标数量和采样率;根据上述采样率,对上述时序数据集中的时序进行采样,将采样后的时序确定为样本时序;根据上述目标数量和上述采样率,确定近邻样本数量;计算各样本时序与上述查询时序之间的第二相似度,并按照上述第二相似度从高到低的顺序依次选取上述近邻样本数量的样本时序作为近邻样本时序;确定上述近邻样本时序中与最低的第二相似度对应的近邻样本时序,并将与该近邻样本时序对应的第二相似度确定为上述查询时序的近邻距离参数。
根据本发明的实施例,上述近邻样本数量ksample通过来确定,其中,k是上述目标数量,α是上述采样率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东城市(北京)数字科技有限公司,未经京东城市(北京)数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111022473.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工业泵性能测试系统和方法
- 下一篇:特厚煤层分层开采高效铺网方法





