[发明专利]基于时间注意力机制和LSTM的人体行为识别方法有效
| 申请号: | 201910271178.2 | 申请日: | 2019-04-04 |
| 公开(公告)号: | CN110135249B | 公开(公告)日: | 2021-07-20 |
| 发明(设计)人: | 毕盛;谢澈澈;董敏;李永发 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 时间 注意力 机制 lstm 人体 行为 识别 方法 | ||
本发明提供了一种基于时间注意力机制和LSTM的人体行为识别方法,包括步骤:1)获取RGB单目视觉传感器的视频数据;2)提取2D骨架关节点数据;3)提取关节点联合结构特征;4)构建LSTM长短期记忆网络;5)在LSTM网络中加入时间注意力机制;6)利用softmax分类器进行人体行为识别。本发明能提高基于视觉的行为识别系统的普适性、实时性以及对复杂动作识别的准确率。
技术领域
本发明涉及人体行为识别的技术领域,尤其是指一种基于时间注意力机制和LSTM的人体行为识别方法。
背景技术
近年来,人体行为识别技术在生产生活中具有广泛的应用。一方面,智能家居的发展使机器人对人的动作识别和理解提出更高的要求,另一方面,产业的转型使工业趋向智能化发展,人体行为识别被广泛地应用于工业机器人的人机交互和人机协作等领域。此外,随着视频媒体的发展及视觉传感器的普及,人体行为识别技术在远程医疗、家庭监控及城市治安监控等方面发挥着重要作用。RGB+D视频由于其包含丰富的信息,成为当前行为识别研究的热点。
目前,人体行为识别技术研究方面主要采用基于视觉的传感器和基于深度神经网络的方法,但目前还面临如下问题:
1、深度视觉传感器的普适性差:尽管基于RGB+D视频的行为识别方法在实验环境有较高的精度,然而由于深度视觉传感器实时性差、分辨率低、成本较高、只能近距离识别等限制,难以在实际生活中普及。
2、RGB视频行为识别系统的实时性差:由于视频含有大量信息,在为行为识别带来足够可用信息的同时,也带来大量的冗余信息,从而降低系统运行的速度,使实际应用中延迟时间长,实时性差。
3、复杂背景和复杂动作的识别精度低:对于复杂动作,当前大多数行为识别方法都是将视频序列输入深度神经网络进行特征提取,然而却忽略视频序列中不同帧的对动作类别的贡献程度,缺乏对关键信息的关注使得人体行为识别系统对复杂动作的识别精度降低。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于时间注意力机制和LSTM的人体行为识别方法,识别准确率较高及普适性较强,旨在构建基于RGB单目视觉传感器的深度神经网络模型从而提高在基于视觉的行为识别系统的普适性;从RGB视频流中提取2D骨架关节点,提出一种基于骨骼关节点的结构特征提取方法,通过减少视频冗余信息来提高行为识别系统的处理速度从而提高实时性;提出一种结合时间注意力机制的LSTM(长短期记忆网络)模型,从而提高行为识别的准确率。
为实现上述目的,本发明所提供的技术方案为:基于时间注意力机制和LSTM的人体行为识别方法,包括以下步骤:
1)获取RGB单目视觉传感器的视频数据;
2)提取2D骨架关节点数据;
3)提取关节点联合结构特征;
4)构建LSTM长短期记忆网络;
5)在LSTM网络中加入时间注意力机制;
6)利用softmax分类器进行人体行为识别。
在步骤1)中,获取RGB单目视觉传感器的视频数据,包括以下步骤:
1.1)将RGB单目视觉传感器安装于监控区域,实时获取数据;
1.2)将服务器连接到前端编解码器,通过流媒体协议下载实时视频数据;
1.3)采用iSCSI的IP连接模式,将获取的视频传输到服务器的存储设备进行存储;
1.4)对采集的视频数据进行预处理,并将数据送到关节点提取模块进行处理。
在步骤2)中,提取2D骨架关节点数据,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910271178.2/2.html,转载请声明来源钻瓜专利网。





