[发明专利]一种基于多交互时空图网络的行人轨迹预测方法和系统有效
申请号: | 202111324614.1 | 申请日: | 2021-11-10 |
公开(公告)号: | CN113781527B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 杨铀;阚倩;黄馨圣子;刘琼 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06Q10/04 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 胡秋萍 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 交互 时空 网络 行人 轨迹 预测 方法 系统 | ||
1.一种多交互行人特征提取方法,其特征在于,对输入视频序列中的每一帧,进行以下操作:
通过场景分割和卷积操作,提取该帧的全局上下文特征;
通过网格化和位置映射,提取该帧中各行人的局部上下文特征;
采用注意力机制融合全局上下文特征和各行人的局部上下文特征,得到该帧中各行人的全局-局部上下文特征;
提取该帧中各行人的轨迹特征;
拼接该帧中各行人的全局-局部上下文特征和轨迹特征,得到该帧中各行人的多交互特征;
所述注意力机制如下:
其中,表示第个行人,表示第个视频帧,表示全局-局部上下文特征,表示全局上下文特征,表示局部上下文特征,表示操作,表示将每个元素加起来。
2.一种基于多交互时空图网络的行人轨迹预测方法,其特征在于,该方法包括:
S1.采用如权利要求1所述的方法,提取各视频帧中各行人的多交互特征;
S2.对视频序列中的每一帧,将该帧中每个行人抽象为顶点,各行人和场景中的其他行人连接起来作为边,顶点属性为对应该行人的多交互特征,得到多交互时空图网络;
S3.对于每个多交互时空图,获取该时空图中每个行人和其他行人的空间依赖关系,通过各行人之间的空间依赖关系优化各顶点属性;
S4.将同一行人在相邻时间点的顶点连接起来,获取每个行人的时间依赖关系,进而推断未来时刻的轨迹。
3.如权利要求2所述的方法,其特征在于,步骤S3中,采用GCN衡量行人之间的交互权重,所述GCN中,空间图的权重邻接矩阵所示:
其中,表示时刻,表示行人序号,表示行人和之间的欧氏距离;
顶点特征通过GCN被优化和聚合:
其中,表示的顶点度矩阵,表示单位矩阵,表示归一化的拉普拉斯矩阵,表示学习到的线性变换的权重矩阵,表示激活函数,表示GCN过程,表示第帧中所有行人的多交互特征。
4.如权利要求3所述的方法,其特征在于,在GCN之后,串联Transformer,Transformer的自注意力机制如下:
其中,表示query向量,表示key向量,是每个query的维数,表示value向量,表示注意力头序号,表示Transformer的自注意力机制过程,表示多交互特征;
多头注意力机制用于通过不同的方面捕获更加丰富的信息:
其中,表示注意力的头数,表示多头注意力机制过程,表示拼接操作。
5.一种基于多交互时空图网络的行人轨迹预测系统,其特征在于,该系统包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求2至4任一项所述的基于多交互时空图网络的行人轨迹预测方法。
6.一种计算机可读存储介质,其特征在于,包括存储的计算机程序;所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行权利要求1所述的多交互行人特征提取方法,或者,权利要求2至4任一项所述的基于多交互时空图网络的行人轨迹预测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111324614.1/1.html,转载请声明来源钻瓜专利网。