[发明专利]一种基于反思网络的教学场景视频描述生成方法在审
申请号: | 202011483140.0 | 申请日: | 2020-12-15 |
公开(公告)号: | CN112528883A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 于长斌;段晨瑞;朱铭健;孙晓彤;靳伟;于凤敏 | 申请(专利权)人: | 杭州义顺科技有限公司;南京众智未来人工智能研究院有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06F40/126;G06F40/151 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 周红芳 |
地址: | 310026 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 反思 网络 教学 场景 视频 描述 生成 方法 | ||
1.一种基于反思网络的教学场景视频描述生成方法,其特征在于,包括如下步骤:
步骤1)视频图像预处理阶段:对视频抽取指定个数的图像帧,并对图像做颜色、尺寸变换的预处理;
步骤2)图像特征抽取阶段:使用预训练卷积神经网络抽取图像帧特征并保存;
步骤3)数据集标注预处理阶段:提出一个包含教学场景视频的新数据集,每个视频对应一条手工标注的语句,用来描述师生课堂的互动情况;根据已标注的所有文本建立词汇表;最后将所有由人类语言标注的句子根据词汇表中的对应关系转成数字序号序列;
步骤4)图像特征编码阶段:使用门控循环单元网络(GRU),对于步骤2)中已保存的图像帧特征进行编码,得到视觉表征序列;
步骤5)文本解码阶段:使用两阶段反思解码器,第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程打磨和润色原始语句;两个解码器将步骤4)得到的视觉表征序列解码为数字序号序列;然后根据词汇表中单词与数字的对应关系将数字序号序列转为文本句子。
2.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤1)中一个视频等间隔抽取的帧数为10帧,每一帧经过尺寸变化后,转变为通道数为3,高、宽均为224像素的图片;再把每一帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换;每次抽一个视频的图像帧进行上述处理后保存到电脑内存中,然后执行步骤2);当下一个视频到来时,再次执行步骤1)和步骤2)。
3.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤2)中所采用的预训练卷积神经网络CNN模型可采用AlexNet,VGG或ResNet模型对步骤1)中已抽取的图像帧进行特征抽取,然后以张量的形式存储到硬盘中,其形式为(视频个数,每个视频抽取的帧数,每个视频的特征),然后将生成的特征向量输入到步骤4)中作为编码器的输入部分。
4.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤3)中将视频数据集划分为训练集,验证集和测试集,其个数比例为4:1:1;使用NLTK工具将标注的文本进行单词划分,然后略去出现次数小于3的单词,并将每一个单词标好序,加入词汇表中;将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列;如果句子长度超过10词,那么截取前10词;如果长度少于10词,那么就用pad补充;在训练阶段,为识别处理不同长度的句子,在句子开头加入BOS,句子最后加入EOS符号作为结束标志;在测试阶段,在解码器解码的第一个时间步时,输入BOS作为起始信号,不断生成下一个单词,直至遇到EOS结束标志。
5.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤4)中采用门控循环单元网络GRU对步骤2)中已抽取的视觉特征进行编码;在每个时间步输入视觉特征并生成表达;门控循环单元网络的隐状态表达长度为1024;在训练阶段初始学习率为3e-4,采用Adam优化器进行训练。
6.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤5)中采用门控循环单元网络GRU对步骤4)中已编码的视觉特征进行文本解码;此解码器分为两个阶段,其中第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程对第一阶段生成的原始语句进行打磨和润色;由于第二阶段反思解码器具有第一阶段解码器生成的语句这一全局信息,因此它能通过从第一阶段的原始语句中观察未来的单词而产生描述更加精细化的序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州义顺科技有限公司;南京众智未来人工智能研究院有限公司,未经杭州义顺科技有限公司;南京众智未来人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011483140.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能健身划船机
- 下一篇:一种二丙酸咪唑苯脲无菌原料药的制备方法