[发明专利]通过将视觉特征与声音标记相关来给视频加标记在审
申请号: | 202080032449.X | 申请日: | 2020-04-14 |
公开(公告)号: | CN113767434A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | S.克里什纳默蒂;X.刘 | 申请(专利权)人: | 索尼互动娱乐股份有限公司 |
主分类号: | G11B27/036 | 分类号: | G11B27/036;G11B27/34;G06K9/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 视觉 特征 声音 标记 相关 视频 | ||
基于视觉场景自动地推荐音效使得录音师能够在计算机模拟诸如电影和视频游戏的视频制作期间。该推荐引擎可通过以下操作来完成:对SFX进行分类(200);以及使用机器学习引擎基于第一计算机模拟(204)的视频属性与分类的SFX之间的学习到的相关性来为所述第一计算机模拟输出(202)所述分类的SFX中的第一分类的SFX。
技术领域
本申请总体上涉及技术上创新的非常规解决方案,这些解决方案必须源于计算机技术并产生具体的技术改进。
背景技术
机器学习(有时也称为深度学习)可用于与数据理解、检测和/或分类有关的多种有用应用。在计算机模拟行业(诸如游戏行业)中,视频和音频是两个独立的过程。首先,设计和制作没有音频的模拟,然后,音频组研究模拟视频并插入来自音效(SFX)数据库的对应SFX,这很耗时。
发明内容
如本文所理解,机器学习可用于通过提供与计算机模拟场景相关的SFX推荐来解决以上指出的技术问题。
因此,一种设备包括:至少一个处理器;以及至少一个计算机存储设备,所述至少一个计算机存储设备不是瞬时信号并且包括指令,所述指令能够由所述处理器执行以对音效(SFX)进行分类以城下分类的SFX。所述指令能够执行以使用至少一个机器学习引擎至少部分地基于第一计算机模拟的视频属性与所述分类的SFX之间的学习到的相关性来为至少所述第一计算机模拟输出所述分类的SFX中的至少第一分类的SFX。
在示例实施方案中,所述指令可能够执行以使用所述第一计算机模拟中的元素到所述分类的SFX中的所述第一分类的SFX的分类的直接映射来为所述第一计算机模拟推荐所述分类的SFX中的所述第一分类的SFX。在此类实施方案中,所述指令可能够执行以将没有声音的所述第一计算机模拟输入到至少第一神经网络(NN),所述第一NN被训练来学习视频中的视觉特征与SFX标记之间的相关性;以及将来自包括噪声SFX的地面实况分类的至少第一噪声SFX模型的信息输入到所述第一NN。所述指令还可能够执行以将训练数据输入到所述第一噪声SFX模型以训练所述第一噪声SFX模型,其中所述训练数据包括来自一个或多个计算机模拟的音频剪辑和合成的音频剪辑。所述指令还可能够执行以:将所述训练数据输入到所述第一噪声SFX模型的多个卷积NN(CNN)以呈现第一输出;以及然后将所述第一输出输入到分类映射器,所述分类映射器呈现包括对所述第一计算机模拟的SFX预测的第二输出。
在一些实现方式中,所述第一噪声SFX模型包括多个门控卷积神经网络(CNN)。至少一个双向循环神经网络(RNN)可被配置为接收所述多个门控CNN的输出。而且,多个基于注意力的前馈神经网络(FNN)可被配置为接收所述RNN的输出。
在一些示例中,所述第一噪声SFX模型可包括多个门控卷积神经网络(CNN),所述多个门控CNN中的至少一者被配置为接收所述训练数据。至少第一分类器(CLF)网络可被配置为接收所述多个门控CNN的输出,并且至少第二CLF网络可被配置为接收所述多个门控CNN的输出。在此类实施方案中,所述第一CLF网络可以是被配置为接收来自所述多个门控CNN的输出的监督式32类网络,所述输出包括来自一个或多个计算机模拟的所述音频剪辑和所述合成的音频剪辑两者的数据。所述第二CLF网络可以是被配置为接收来自所述多个门控CNN的输出的监督式182类网络,所述输出包括来自所述合成的音频剪辑而不是来自一个或多个计算机模拟的所述音频剪辑的数据。
在另一方面,一种设备包括:至少一个处理器;以及至少一个计算机存储设备,所述至少一个计算机存储设备不是瞬时信号并且包括指令,所述指令能够由所述处理器执行以至少部分地通过将无声视频帧和噪声SFX标签输入到多个残差神经网络(Resnet)来训练至少第一音效(SFX)推荐引擎。所述指令能够执行以:将所述Resnet的输出输入到至少一个双向门控循环单元以呈现向量;以及至少部分地通过将所述Resnet的输出输入到至少一个经训练模型来为没有声音的至少第一视频推荐至少一个SFX,所述至少一个经训练模型还被配置为接收没有声音的至少第二视频作为输入以输出表示用于所述第二视频的推荐的SFX的至少一个SFX标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼互动娱乐股份有限公司,未经索尼互动娱乐股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080032449.X/2.html,转载请声明来源钻瓜专利网。