[发明专利]使用视觉信息增强视频中人类说话者的语音信号的方法和系统在审

申请号：	201880054901.5	申请日：	2018-07-03
公开（公告）号：	CN111052232A	公开（公告）日：	2020-04-21
发明（设计）人：	施缪尔·潘莱格;阿萨夫·沙米尔;塔维·哈普林;阿维夫·加贝;阿里尔·艾弗拉特	申请（专利权）人：	耶路撒冷希伯来大学伊森姆研究发展有限公司
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L21/0272;G06K9/00;G06K9/62;G10L25/57;G10L21/0232
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	俞立文;杨明钊
地址：	以色列***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	使用视觉信息增强视频人类说话语音信号方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本文提供了一种用于增强语音信号的方法和系统。该方法可以包括以下步骤：获得原始视频，其中该原始视频包括显示至少一个人类说话者面部的原始输入图像序列，以及与所述图像序列同步的原始声轨；以及使用计算机处理器处理原始视频，以基于从原始输入图像序列导出的视觉数据，通过检测与至少一个人类说话者的语音在听觉上无关的声音，产生所述至少一个人类说话者的增强语音信号。

发明领域

本发明总体上涉及语音信号增强，更具体地，涉及通过使用面部和嘴部运动的视觉信息去除听觉上不相关的声音来增强语音信号。

发明背景

当视频在演播室录制时，声音中没有外部噪音和不相关的声音。然而，大多数视频不是在工作室拍摄的。在家庭活动中拍摄的人们的话音与音乐和其他话音混合在一起。家里或办公室的视频会议经常被其他人、响铃的电话或吠叫的狗打扰。城市街道上的电视报道混杂着交通噪音、风的声音等等。

本领域中先前已知的单通道或单声道语音分离方法通常仅使用音频信号作为输入。一种主要的方法是频谱掩蔽，其中分离模型发现包含由每个说话者主导的时间-频率(TF)分量的矩阵。掩模或滤波器可以是二元或软的。一种方法使用被称为深度聚类的方法来处理单通道多说话者分离，其中使用经过区分训练的语音嵌入作为聚类以及随后分离语音的基础。

视听(Audio-Visual)语音处理

视听语音处理的最新研究广泛使用了神经网络。具有视觉输入的神经网络已经用于唇读、声音预测，并用于学习无监督的声音表示。视听语音增强和分离方面的工作也已经完成。一种方法使用手动设计(handcrafted)的视觉特征来导出用于说话者分离的二元和软掩模。大多数已知的方法描述了一种神经网络，其输出表示增强语音的频谱图。

存在从说话者的无声视频帧生成可理解语音的不同方法。

在由本发明的发明人在“ICASSP 2017-Vid2Speech:Speech Reconstructionfrom Silent Video”和其他地方提出的被称为Vid2speech的方法中，生成表示语音的线性频谱图，该语音来自说话的人的无声视频帧序列。Vid2speech模型采用两个输入：显示说话者面部或说话者面部的一部分的K个连续视频帧的剪辑，以及对应于连续帧的像素在(u；v)方向上的运动的(K+1)个连续密集光流场的“剪辑”。

Vid2speech架构由双塔残差神经网络(ResNet)组成，ResNet由He,Kaiming等人在2016年发表于CVPR上的题为“Deep residual learning for image recognition”的文章中公开，其采用前述输入并将它们编码成表示视觉特征的潜在向量。潜在向量被馈送到一系列两个完全连接的层中，随后是后处理网络，后处理网络聚集多个连续的mel-scale频谱图预测，并将它们映射到表示最终语音预测的线性尺度频谱图。

应当理解，本文对Vid2speech技术的任何提及不应被解释为限制性的，并且可以包括基于视觉分析的任何其他发声到听觉(articulatory-to-acoustic)的映射。

发明概述

本发明的一些实施例建议使用视频中看到的面部和嘴部运动的视觉信息来增强说话者的话音，特别是消除与面部运动无关的声音。该方法基于由视频到语音系统预测的语音的频谱信息。

如果没有视觉信息，在滤除其他话音或背景噪音的同时隔离特定人类话音的任务被称为鸡尾酒会(cocktail party)问题。在某些情形中，当N个麦克风录制N个话音时，这个问题是可以解决的。

说话者分离和语音增强是语音处理中的基本问题，多年来一直是广泛研究的主题，尤其是最近神经网络成功地用于这一任务。解决这些问题的一种常见方法是训练神经网络以将音频混合物分离成它们的源，利用网络的能力学习独特的语音特征，如频谱带、音高、啁啾等。纯音频方法的主要困难是它们不能分离相似人类的话音(典型地相同性别的话音)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于耶路撒冷希伯来大学伊森姆研究发展有限公司，未经耶路撒冷希伯来大学伊森姆研究发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201880054901.5/2.html，转载请声明来源钻瓜专利网。

上一篇：认证装置、认证系统、认证方法以及程序
下一篇：检测癌症的方法和检测试剂

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]使用视觉信息增强视频中人类说话者的语音信号的方法和系统在审

专利文献下载