[发明专利]一种基于SlowFast的电力作业现场动作识别方法有效

申请号：	202011030237.6	申请日：	2020-09-27
公开（公告）号：	CN112183313B	公开（公告）日：	2022-03-11
发明（设计）人：	王波;张迎晨;马富齐;罗鹏;周胤宇;张天;王红霞;马恒瑞;李怡凡;张嘉鑫	申请（专利权）人：	武汉大学
主分类号：	G06V40/20	分类号：	G06V40/20;G06V10/94;G06V10/774;G06V10/82;G06K9/62;G06F16/75;G06N3/04;G06N3/08
代理公司：	苏州导思知识产权代理事务所(普通合伙) 32425	代理人：	龚建良
地址：	430067 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 slowfast 电力作业现场动作识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于SlowFast的电力作业现场动作识别方法，包括以下步骤：

第一步，采集作业现场视频图像样本，针对每种作业类型进行视频采集；

第二步，人工视频预处理及标注，通过人工将采集得到的视频数据以人为画面中心进行裁剪，将视频尺寸进行归一化处理，按作业类型进行分类，通过视频剪辑，提取每种作业过程中的动作，按动作先后顺序将剪辑后的视频片段进行标注；

第三步，构建模型，利用Pytorch框架将视频中包含的图像信息、纹理特征、边缘信息、光流信息进行提取，将提取出的特征信息输入到神经网络，由神经网络计算模型参数，并输出基于视频的动作识别结果；

第四步，模型训练，基于已处理好的带标注的视频数据进行神经网络训练，通过验证集和测试集识别结果优化模型参数，对特殊的识别困难样本，可进行数据集补充以及修正标注，将新数据输入模型继续训练，通过专业的图形计算加速卡辅助计算，多次迭代后获得高精度动作识别模型；

第五步，模型评估，通过采集现场作业新视频数据，或现场实地测试动作模型，验证模型识别效果；

其中，实现步骤一的具体操作为：

准备5个可见光摄像头，布置在作业现场，围绕作业人员，从5个视角拍摄作业人员的作业画面，每种作业重复多次，并拍摄倒闸、接地、验电作业三类作业视频；

其中，实现步骤二的具体操作为：

(1)将步骤一中采集的视频数据，按作业类型进行分类；

(2)从电力现场作业规范中获取每种作业的规范动作，并制作成标签列表，例如倒闸作业的标签列表中：行标题为作业步骤序号，列标题为作业步骤具体动作名称；

(3)依据标签列表对每段完整的作业视频进行动作切分，每个视频片段包含的动作对应于标签列表中的具体动作名称；

(4)将剪辑后的视频片段，按照作业类型已经动作标签重新整理；

其中，实现步骤三的具体操作为：

(1)在超算平台上安装算法实现需要的开发环境；

(2)SlowFast网络在时空中通过定向滤波捕获特征信息，时间与空间通过视频帧提取间隔来区分，将视频帧按16帧间隔提取，即获取图像跨度较大的少量帧作为Slow支路的输入，将视频帧按2帧间隔提取，即获取图像跨度小的大量帧作为Fast支路的输入，综合两条路径提取的特征信息能有效分析动作包含的语义信息，实现对动作时空的分析；

(3)SlowFast网络在空间维度上保持视频原始帧作为输入，即保留了空间分辨率1080P和可见光RGB颜色信息；

(4)SlowFast网络在空间维度上，输入的视频帧较少，但其需要分析提取的关键信息多且复杂，细粒程度更高，从而会产生大量的计算，大约占据80％算力，在时间维度上，输入的视频帧较多，但其需要分析提取的关键信息少且简单，细粒程度较低，从而不会产生大量的计算，只消耗约20％的算力；

(5)SlowFast网络中包含单向的由Fast支路指向Slow支路的侧向连接通道，将两种特征信息进行融合，两条支路输入的视频帧数不同，其特征图的维度也不同，在进行侧向连接时，对Fast支路的特征图利用5*1*1的3D卷积核进行尺度变换，Slow支路的特征图求和，实现特征融合；

(6)将两条支路提取的特征信息进行串联后，输入全连接层进一步提取特征；

(7)将(6)中提取后的特征输入sigmoid回归层进行回归计算，得到预测值；

(8)根据标签列表查询预测值对应的动作标签，即为预测动作；

其中，实现步骤四的具体操作为：

(1)将整理好的动作数据集输入模型中，模型自动提取视频帧；

(2)将(1)中提取的视频帧进行数据增强，增强方法包含高斯模糊、随机光照、水平翻转；

(3)将(2)中增强后的数据，依预设分别输入Slow支路与Fast支路；

(4)两条支路进行一系列特征提取与特征融合后，将特征向量输入sigmoid回归层进行回归计算，得到预测值；

(5)根据标签列表查询预测值对应的动作标签，即为预测动作；