[发明专利]一种基于张量火车分解模型的交通大数据填充方法有效
申请号: | 202010058620.6 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111310117B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 谭华春;丁璠;王梵晔;蒋竺希;伍元凯;李琴 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/16 | 分类号: | G06F17/16 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 周蔚然 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 张量 火车 分解 模型 交通 数据 填充 方法 | ||
本发明公开了一种基于张量火车分解模型的交通大数据填充方法,该方法包括:构建包含5个交通数据维度的五维张量模型;通过L2正则约束,构建初始基于张量火车分解模型的填充模型;对所述填充模型中进行共轭梯度优化,获得每个核向量的优化后的填充模型;或对所述的填充模型,进行迹范数优化,得到最终填充模型;通过所述第一填充模型和/或第二填充模型,进行交通大数据填充。本发明提供的方法能够提高数据填充的精度,在高丢失率下能够保持填充稳定性。
技术领域
本发明属于交通领域,具体涉及一种基于张量火车分解的交通大数据填充方法。
背景技术
自大数据的快速发展以来,海量数据的获取为交通领域带来了极大的机遇与挑战,现代计算机技术与传统的交通技术的结合,更是催生出一系列智能交通产业,2017年,“互联网+交通”的模式在各大城市如雨后春笋般开展起来。然而,大数据产业需要完成健康的数据作为支持,在实际生活中,由于检测设备、传输设备的故障或恶劣天气的影响等,使得原始交通数据中存在不同程度的丢失现象,给交通数据的分析和深层次的挖掘带来不利影响。
张量是高维数据的天然表达,尤其适用于多维,多模态,多关系数据的表达和分析,因此张量模型被广泛应用于图像处理,能源以及交通等学科。将数据构建成张量模型并通过张量填充补全缺失数据,已成为大数据分析领域的学术热点问题之一。张量分解是张量填充问题的主要方法之一,张量分解用一系列核张量和因子矩阵的乘积来近似原始张量,这些因子矩阵和核张量是原始张量在不同子空间的投影,通过选择合适的子空间,使这些投影具有某种意义,能提取出原始张量的某些特征。同时,对于存在数据缺失的原始张量,也可通过对子空间的分析计算,估计出原始张量对应位置的缺失值。现存的张量分解算法大都基于张量的平行因子分解(CP分解)和张量的高阶奇异值分解(Tucker分解)。由于CP分解模型不能很好表征数据导致分解不稳定,而Tucker分解在高维数据的应用上计算量较大,不合适高维数据的分解,现正展开对于张量火车分解模型(TT分解)的研究。
张量火车分解模型将一个高阶张量分解成一系列稀疏互联的低阶张量(例如二维矩阵和三维张量),这些低阶张量互相由彼此相对应的一条边界连着。对于一个d阶张量来说,对其进行张量火车分解后,其每个元素如下所示:
其中是一个rk-1×rk的根据维度参数索引的矩阵,这些矩阵相乘后,大小变为r0×rd,由此可以推出r0=rd=1,这也是张量火车的边界条件。对比张量CP分解的定义,张量火车的每个核可以看成一个块化的秩一张量。与CP分解不同的是,rk可以作为附属矩阵的秩进行计算。上述式子的索引表达式形式如下:
张量火车分解的核张量gk实际上是个大小为rk-1×ik×rk三阶张量,其元素为由于边界条件r0=rd=1,第一个核张量的最后一个核张量实际上是矩阵。这个分解可以用一个线性张量网络来表示,图2描述了一个四阶张量火车分解的张量网络图。rk被称为张量火车分解的秩(TT-rank),/被称作张量火车分解的核张量。/
张量火车分解模型的展开方式同一般张量展开方式不同,一般张量的展开都是沿着某一维度进行n模式展开,而张量火车分解模型由于秩rk的限制,并且其最多只出现2次,不同维度间存在线性连接关系,因此张量火车分解模型的展开式如下所示:
模型展开后的矩阵大小为即沿k模式展开后,矩阵的行大小为原始张量从第一维度到第k维度的枚举计算,矩阵的列大小为k维到最后一个维度的枚举计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010058620.6/2.html,转载请声明来源钻瓜专利网。