[发明专利]通过将视觉特征与声音标记相关来给视频加标记在审
申请号: | 202080032449.X | 申请日: | 2020-04-14 |
公开(公告)号: | CN113767434A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | S.克里什纳默蒂;X.刘 | 申请(专利权)人: | 索尼互动娱乐股份有限公司 |
主分类号: | G11B27/036 | 分类号: | G11B27/036;G11B27/34;G06K9/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 视觉 特征 声音 标记 相关 视频 | ||
1.一种设备,所述设备包括:
至少一个处理器;以及
至少一个计算机存储设备,所述至少一个计算机存储设备不是瞬时信号并且包括指令,所述指令能够由所述至少一个处理器执行以:
对音效(SFX)进行分类以呈现分类的SFX;以及
使用至少一个机器学习引擎至少部分地基于第一计算机模拟的视频属性与所述分类的SFX之间的学习到的相关性来为至少所述第一计算机模拟输出所述分类的SFX中的至少第一分类的SFX。
2.如权利要求1所述的设备,其中所述指令能够执行以:
使用所述第一计算机模拟中的元素到所述分类的SFX中的所述第一分类的SFX的分类的直接映射来为所述第一计算机模拟推荐所述分类的SFX中的所述第一分类的SFX。
3.如权利要求2所述的设备,其中所述指令能够执行以:
将没有声音的所述第一计算机模拟输入到至少第一神经网络(NN),所述第一NN被训练来学习视频中的视觉特征与SFX标记之间的相关性;
将来自包括噪声SFX的地面实况分类的至少第一噪声SFX模型的信息输入到所述第一NN。
4.如权利要求3所述的设备,其中所述指令能够执行以:
将训练数据输入到所述第一噪声SFX模型以训练所述第一噪声SFX模型,所述训练数据包括来自一个或多个计算机模拟的音频剪辑和合成的音频剪辑。
5.如权利要求4所述的设备,其中所述指令能够执行以:
将所述训练数据输入到所述第一噪声SFX模型的多个卷积NN(CNN)以呈现第一输出;
将所述第一输出输入到分类映射器,所述分类映射器呈现包括对所述第一计算机模拟的SFX预测的第二输出。
6.如权利要求3所述的设备,其中所述第一噪声SFX模型包括:
多个门控卷积神经网络(CNN);
至少一个双向循环神经网络(RNN),所述至少一个双向RNN被配置为接收所述多个门控CNN的输出;
多个基于注意力的前馈神经网络(FNN),所述多个基于注意力的FNN被配置为接收所述RNN的输出。
7.如权利要求4所述的设备,其中所述第一噪声SFX模型包括:
多个门控卷积神经网络(CNN),所述多个门控CNN中的至少一者被配置为接收所述训练数据;
至少第一分类器(CLF)网络,所述第一CLF网络被配置为接收所述多个门控CNN的输出;以及
至少第二CLF网络,所述第二CLF网络被配置为接收所述多个门控CNN的输出。
8.如权利要求7所述的设备,其中所述第一CLF网络是被配置为接收来自所述多个门控CNN的输出的监督式32类网络,所述输出包括来自一个或多个计算机模拟的所述音频剪辑和所述合成的音频剪辑两者的数据。
9.如权利要求8所述的设备,其中所述第二CLF网络是被配置为接收来自所述多个门控CNN的输出的监督式182类网络,所述输出包括来自所述合成的音频剪辑而不是来自一个或多个计算机模拟的所述音频剪辑的数据。
10.一种设备,所述设备包括:
至少一个处理器;以及
至少一个计算机存储设备,所述至少一个计算机存储设备不是瞬时信号并且包括指令,所述指令能够由所述至少一个处理器执行以:
至少部分地通过以下操作来训练至少第一音效(SFX)推荐引擎:
将无声视频帧和噪声SFX标签输入到多个残差神经网络(Resnet);
将所述Resnet的输出输入到至少一个双向门控循环单元以呈现向量;
至少部分地通过以下操作来为没有声音的至少第一视频推荐至少一个SFX:
将所述Resnet的输出输入到至少一个经训练模型,所述至少一个经训练模型还被配置为接收没有声音的至少第二视频作为输入以输出表示用于所述第二视频的推荐的SFX的至少一个SFX标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼互动娱乐股份有限公司,未经索尼互动娱乐股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080032449.X/1.html,转载请声明来源钻瓜专利网。