[发明专利]一种从视频中自动识别地标的方法有效
申请号: | 202110721674.0 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113435443B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 牟骏杰;王鑫;陈昌金;罗凡程;李锐;汤雪梅 | 申请(专利权)人: | 中国兵器装备集团自动化研究所有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06V10/774;G06V30/19;G06V30/148;G06V20/62;G06F16/36 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 林菲菲 |
地址: | 621000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 自动识别 标的 方法 | ||
1.一种从视频中自动识别地标的方法,其特征在于,包括以下步骤:
步骤1:获取多张不同类别的地标图片,得到标准地标图片样本;根据所述标准地标图片样本构建地标分类的自建数据集,所述自建数据集中包括地标图片样本和非地标图片样本;
步骤2:利用ReXnet网络对所述自建数据集进行分类训练,得到图片分类模型,所述ReXnet网络为针对Mobilenet网络结构进行改进后的ReXnet网络;
步骤3:收集待识别视频,对所述待识别视频按照每隔15帧解码一次的方式进行解码,得到多张待识别图片;利用所述图片分类模型对所述多张待识别图片进行分类预测,得到多张地标预测图片和多张非地标预测图片;
步骤4:将所述标准地标图片样本存入地标库,利用基于resnet50基础网络的度量学习模型和triplet_loss函数模型对所述标准地标图片样本进行训练,得到特征匹配初始模型,并对所述特征匹配初始模型进行超参数调整,得到特征匹配模型;
所述步骤4具体包括:
步骤4.1:将所述标准地标图片样本存入地标特征库,并将所述地标特征库分为地标特征合集和验证集,所述地标特征合集中包括多个不同地标特征的类,每一个地标特征的类中包括多张具有同类地标的地标图片,所述验证集用于验证所述地标特征合集中的地标特征是否正确;
步骤4.2:利用基于resnet50基础网络的度量学习模型和triplet_loss函数模型,对所述地标特征合集进行训练,得到特征匹配初始模型;
步骤4.3:利用所述验证集对训练的超参数进行调整,得到特征匹配模型;
步骤5:利用所述特征匹配模型对所述多张地标预测图片进行特征提取,得到地标预测特征向量集,利用所述特征匹配模型对所述标准地标图片样本进行特征提取,得到标准地标特征向量集;
步骤6:针对每一张地标预测图片,利用地标预测图片对应的地标预测特征向量和所述标准地标特征向量集,获取地标预测图片与所有标准地标图片的相似度阈值,得到相似度阈值数据集;
步骤7:根据所述相似度阈值数据集确定每一张地标预测图片中地标的类别,得到地标识别结果;
步骤8:检测待识别视频中是否存在字幕信息和语音信息,若检测出待识别视频中至少存在有字幕信息和语音信息中的一种,则继续执行步骤9;若未检测到待识别视频中的字幕信息或语音信息,则执行步骤11;
步骤9:若检测出待识别视频中仅存在字幕信息,对字幕信息依次进行文本检测、文字识别和聚类操作,得到多个字幕文本,并将多个字幕文本存入文本数据集;若检测出待识别视频中仅存在语音信息,将语音信息转换为多个语音文本,并将多个语音文本去重后存入所述文本数据集;若检测出待识别视频中既有字幕信息又有语音信息,则分别获取多个字幕文本和多个语音文本,并对多个字幕文本和多个语音文本进行去重操作后存入所述文本数据集;
步骤10:对所述文本数据集进行实体识别,得到文本识别结果;将所述文本识别结果与所述地标识别结果进行对比,判断所述地标识别结果是否正确;若地标识别结果判正确,则结束地标识别工作,若地标识别结果错误,则继续执行步骤11;
步骤11:根据所述地标识别结果,筛选出所有识别错误的地标预测图片;针对每一张错误识别的地标预测图片的错误原因进行分析,若错误原因是对标准地标图片误识或漏识中的一种,则将错误识别的地标预测图片加入地标库的地标特征合集部分,重新执行4.2至步骤10;若错误原因是错误识别的地标预测图片中的地标类别为新地标类别,则将错误识别的地标预测图片作为新地标类别加入地标库,更新地标库列表,并重新执行步骤4至步骤10;若错误原因是错误识别的地标预测图片为非地标图片,则将错误识别的地标预测图片加入非地图片样本。
2.根据权利要求1所述的一种从视频中自动识别地标的方法,其特征在于,构建地标分类的自建数据集的方法为:
步骤1.1:收集多个不同节目类型的,包含有所述标准地标图片样本中所有类别的地标的样例视频,形成视频样本;
步骤1.2:针对所述视频样本中的每一个样例视频,按照每隔15帧解码一次的方式,将样例视频解码成为多张样例图片,形成图片样本;
步骤1.3:从所述图片样本中筛选出所有包含地标的图片,得到地标图片样本;
步骤1.4:另收集多张不含地标的图片,得到非地标图片样本;
步骤1.5:将所述地标图片样本和所述非地标图片样本组合成为地标分类的自建数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国兵器装备集团自动化研究所有限公司,未经中国兵器装备集团自动化研究所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110721674.0/1.html,转载请声明来源钻瓜专利网。