[发明专利]一种面向网约车的车内危险场景识别方法有效
| 申请号: | 201911022238.3 | 申请日: | 2019-10-25 |
| 公开(公告)号: | CN111091044B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 梁超;张玥;邹珺明;王晓 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/59;G06V10/80;G06K9/62 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 网约车 危险 场景 识别 方法 | ||
1.一种面向网约车的车内危险场景识别方法,其特征在于,包括:
步骤S1:从采集的视频数据中提取出人体骨骼关键点作为姿态特征,其中,每个人对应一组姿态特征;
步骤S2:对采集的音频数据进行重采样后,提取出语音特征;
步骤S3:将提取出的各组姿态特征和一组语音特征分别当作一种模态特征,输入预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,根据模态特征当前时刻的模态注意力和对应的模态原始特征,获得融合特征,其中,与当前时刻的模态注意力对应的模态原始特征为当前时刻的姿态特征或者语音特征;
步骤S4:将融合特征作为当前时刻的场景特征输入时序模型,进行危险场景识别,输出识别结果;
其中,步骤S3具体包括:
步骤S3.1:将提取出的各组姿态特征和一组语音特征分别当作一种模态特征,输入预设模态注意力模型,计算出每种模态特征的当前时刻的模态注意力,预设模态注意力模型包括一层LSTM和一层单节点输出层,模态特征的当前时刻的模态注意力的计算方式为:
其中,表示第m个模态在t时刻的模态注意力,表示第m个模态在t时刻结合历史特征得到的特征向量,W和b表示单节点输出层的参数,表示sigmoid函数;
步骤S3.2:根据模态特征当前时刻的模态注意力计算模态特征的模态注意力权重:
其中,表示第m个模态在t时刻的模态注意力权重,M表示模态的总数量,exp表示以自然常数e为底的指数函数;
步骤S3.3:根据模态原始特征和模态注意力权重,求得每个模态特征的结果,再将每个模态特征的结果相加,获得融合特征:
其中,表示t时刻所有模态的融合特征,表示第m个模态在t时刻的原始特征。
2.如权利要求1所述的方法,其特征在于,步骤S1具体包括:
步骤S1.1:将采集的视频数据转换为视频帧序列;
步骤S1.2:利用预设工具从视频帧中提取每个人的骨骼关键点坐标作为姿态特征,并按照车内人数将所有的姿态特征对应分成若干组姿态特征。
3.如权利要求2所述的方法,其特征在于,步骤S1.2具体包括:
步骤S1.2.1:将每帧图像依次利用Lightweight OpenPose模型处理得到所有人体关键点坐标,并从所有人体关键点坐标中筛选出14个人体上半身骨骼关键点坐标,其中,14个人体上半身骨骼关键点坐标为左腕,右腕,左肘,右肘,左肩,右肩,左腰,右腰,脖子,鼻子,左眼,右眼,左耳,右耳,每个坐标均为2维向量;
步骤S1.2.2:将所述14个人体上半身骨骼关键点坐标进行拼接,得到每个人对应的一组28维的姿态特征。
4.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
步骤S2.1:利用预设程序对音频数据进行重采样,使音频数据的帧率与视频数据的帧率保持相同;
步骤S2.2:将重采样后的音频数据通过预加重、分帧、加窗、傅里叶变换、Mel滤波和归一化处理,提取出滤波器组语音特征。
5.如权利要求4所述的方法,其特征在于,步骤S2.2具体包括:
对音频数据进行预加重处理后,根据重采样后的音频采样点个数和采样率,对音频数据进行分帧,然后进行加窗和傅里叶变换,最后根据视频特征维度设置相应数量的滤波器进行Mel滤波并进行归一化处理,得到姿态特征维度相同的音频特征。
6.如权利要求1所述的方法,其特征在于,步骤S4中的时序模型由多层LSTM和一层两结点输出层组成,识别结果分为两类,分别为属于危险场景的类别和不属于危险场景的类别。
7.如权利要求6所述的方法,其特征在于,步骤S4具体包括:
将步骤S3中预设模态注意力模型与时序模型进行级联,将预设模态注意力模型每输出一个融合特征,都将作为当前时刻的特征输入时序模型,获得实时识别结果,其中,时序模型的数学表达式为:
其中,被判为危险场景的概率的计算公式为公式(5):
得到的场景标签由公式(6)描述:
上述公式中,分别表示危险场景和非危险场景下的危险程度,表示最后一层LSTM的输出参数,W和b表示两结点输出层的参数,表示融合特征,表示被判为危险场景的概率,lt表示t时刻的场景标签,取值范围为{Y,N},Y表示属于危险场景,N表示不属于危险场景。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911022238.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种故障检测方法、手持装置以及移动终端
- 下一篇:一种反馈散热方法与装置





