[发明专利]基于时空域特征的狗拴绳识别方法、装置有效
| 申请号: | 202110568106.1 | 申请日: | 2021-05-25 |
| 公开(公告)号: | CN113011404B | 公开(公告)日: | 2021-08-24 |
| 发明(设计)人: | 杨帆;冯帅;刘利卉;胡建国 | 申请(专利权)人: | 南京甄视智能科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京德崇智捷知识产权代理有限公司 11467 | 代理人: | 杨楠 |
| 地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 时空 特征 狗拴绳 识别 方法 装置 | ||
1.一种基于时空域特征的狗拴绳识别方法,利用狗拴绳识别模型来识别视频中的狗是否拴绳,其特征在于,所述狗拴绳识别模型的输入为从有狗存在的视频片段中按以下方法所提取的图像序列:获取视频片段中首次出现狗的图片中以狗为中心的感兴趣区域,并依照所述感兴趣区域的位置从之后的多幅图片中分别截取相应的感兴趣区域,这一系列感兴趣区域的图像即构成所述图像序列;所述狗拴绳识别模型的输出为“狗已拴绳”与“狗未拴绳”这两个类别;所述狗拴绳识别模型包括前端用于提取局部时空域特征并降维的局部时空域特征提取模块和后端用于提取更长期全局特征的全局时域注意力特征提取模块,以及最后用于输出二分类结果的输出层;所述局部时空域特征提取模块由多组并行的可重参数化的三维卷积神经网络及其相应的三维池化及维度转换层构成,所述可重参数化的三维卷积神经网络由若干Rep 3D CNN模块串联组成;所述Rep 3D CNN模块的训练结构包含至少两层三维卷积层,每个三维卷积层后面都有一个批归一化层和激活函数层,模块中的每个三维卷积层都具有一个并行的卷积核为K1=1x1x1的三维卷积分支,且模块中除首个三维卷积层之外的每个三维卷积层还具有一个并行的恒等映射分支,每个三维卷积层的输出与其各分支的输出相加并经过激活层后输入下一层三维卷积层;所述Rep 3D CNN模块的预测结构通过对训练结构进行以下重参数化操作得到:将三维卷积层和批归一化层融合,并将1x1x1三维卷积分支和恒等映射分支合并到相应的三维卷积层;所述全局时域注意力特征提取模块为由T+1个并行的Vision Transformer模块与之后的MLP Head层所组成的VisionTransformer模型,T为所述并行的可重参数化的三维卷积神经网络的数量。
2.如权利要求1所述基于时空域特征的狗拴绳识别方法,其特征在于,所述输出层为Sigmoid激活层。
3.如权利要求1所述基于时空域特征的狗拴绳识别方法,其特征在于,所述以狗为中心的感兴趣区域具体为:以狗的检测框的最长边为基准,将狗的检测框扩大5-10倍所得到的区域。
4.如权利要求1所述基于时空域特征的狗拴绳识别方法,其特征在于,当狗拴绳识别模型的输出为“狗已拴绳”时,还根据狗与人之间的估算距离来进行进一步判断:只有当所述估算距离不大于预设阈值时,才输出“狗已拴绳”的最终识别结果,否则,输出“超出距离”的最终识别结果。
5.一种基于时空域特征的狗拴绳识别装置,利用狗拴绳识别模型来识别视频中的狗是否拴绳,其特征在于,所述狗拴绳识别模型的输入为从有狗存在的视频片段中按以下方法所提取的图像序列:获取视频片段中首次出现狗的图片中以狗为中心的感兴趣区域,并依照所述感兴趣区域的位置从之后的多幅图片中分别截取相应的感兴趣区域,这一系列感兴趣区域的图像即构成所述图像序列;所述狗拴绳识别模型的输出为“狗已拴绳”与“狗未拴绳”这两个类别;所述狗拴绳识别模型包括前端用于提取局部时空域特征并降维的局部时空域特征提取模块和后端用于提取更长期全局特征的全局时域注意力特征提取模块,以及最后用于输出二分类结果的输出层;所述局部时空域特征提取模块由多组并行的可重参数化的三维卷积神经网络及其相应的三维池化及维度转换层构成,所述可重参数化的三维卷积神经网络由若干Rep 3D CNN模块串联组成;所述Rep 3D CNN模块的训练结构包含至少两层三维卷积层,每个三维卷积层后面都有一个批归一化层和激活函数层,模块中的每个三维卷积层都具有一个并行的卷积核为K1=1x1x1的三维卷积分支,且模块中除首个三维卷积层之外的每个三维卷积层还具有一个并行的恒等映射分支,每个三维卷积层的输出与其各分支的输出相加并经过激活层后输入下一层三维卷积层;所述Rep 3D CNN模块的预测结构通过对训练结构进行以下重参数化操作得到:将三维卷积层和批归一化层融合,并将1x1x1三维卷积分支和恒等映射分支合并到相应的三维卷积层;所述全局时域注意力特征提取模块为由T+1个并行的Vision Transformer模块与之后的MLP Head层所组成的VisionTransformer模型,T为所述并行的可重参数化的三维卷积神经网络的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京甄视智能科技有限公司,未经南京甄视智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110568106.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种时序控制器及显示设备
- 下一篇:一种时序控制器和显示设备





