[发明专利]用于校正语音的设备和方法无效
申请号: | 201210305970.3 | 申请日: | 2012-08-24 |
公开(公告)号: | CN103259979A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 井本和范;广畑诚 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | H04N5/262 | 分类号: | H04N5/262 |
代理公司: | 上海市华诚律师事务所 31210 | 代理人: | 杨暄 |
地址: | 日本东京都*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 校正 语音 设备 方法 | ||
1.一种用于校正与移动图像相对应的语音的设备,其特征在于,包括:
分离单元,被配置为从所述语音的每个音频帧中分离至少一个音频成分;
推测单元,被配置为基于所述移动图像的每个图像帧的特征和所述每个音频帧的特征中的至少一个特征,在所述移动图像中推测包括关联的多个图像帧的场景;
分析单元,被配置为通过分析所述每个图像帧来获取所述多个图像帧的属性信息;以及
校正单元,被配置为基于所述属性信息来确定与所述多个图像帧相对应的所述音频成分的校正方法,并且通过所述校正方法校正所述音频成分。
2.如权利要求1所述的设备,其特征在于,
所述推测单元基于所述每个图像帧的所述特征,检测所述移动图像中的每个切割边界,并且基于包含在切割边界和刚刚在所述切割边界之前检测到的另一个切割边界之间的图像帧的所述特征,推测所述场景。
3.如权利要求2所述的设备,其特征在于,
所述分析单元获取所述属性信息,所述属性信息表示所述每个图像帧是否包括至少一个人区域,以及
所述校正单元将所述多个图像帧中包括所述人区域的图像帧的数量与不包括所述人区域的图像帧的数量进行比较,并且基于比较结果来确定所述校正方法。
4.如权利要求3所述的设备,其特征在于,
所述校正单元通过与所述比较结果中较多数量的图像帧相对应的所述校正方法来校正所述音频成分。
5.如权利要求1所述的设备,其特征在于,
所述推测单元对包含在所述每个音频帧中的所述音频成分的类型进行聚类,并且基于所述类型推测所述场景。
6.如权利要求1所述的设备,其特征在于,
所述推测单元通过判定是否从所述每个音频帧中检测到特定声音来推测所述场景。
7.一种用于校正与移动图像相对应的语音的方法,其特征在于,包括:
从所述语音的每个音频帧中分离至少一个音频成分;
基于所述移动图像的每个图像帧的特征和所述每个音频帧的特征中的至少一个特征,在所述移动图像中推测包括关联的多个图像帧的场景;
通过分析所述每个图像帧来获取所述多个图像帧的属性信息;
基于所述属性信息,确定与所述多个图像帧相对应的所述音频成分的校正方法;以及通过所述校正方法来校正所述音频成分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210305970.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种被动自适应履带可变形移动机器人平台
- 下一篇:一种可变刚度的柔性机械手