[发明专利]实时将语音进行分离的语音降噪的方法及系统有效
申请号: | 201610024317.8 | 申请日: | 2016-01-14 |
公开(公告)号: | CN106971741B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 祝铭明 | 申请(专利权)人: | 芋头科技(杭州)有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216 |
代理公司: | 北京中原华和知识产权代理有限责任公司 11019 | 代理人: | 寿宁 |
地址: | 310000 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实时 语音 进行 分离 方法 系统 | ||
本发明公开了实时将语音进行分离的语音降噪的方法及系统,属于语音识别技术领域。实时将语音进行分离的语音降噪的方法,通过将外部输入的声源分割为复数个预设时间段的语音,以采用特征模型与语音进行匹配,分离出噪声与携带人声的语音,再根据识别出的噪音实时更新特征模型,从而达到实时识别外界不断变换的噪声的目的,同时将所述噪声作为参照样本以生成判断语音的纯语音的概率模型,对携带人声的语音的进行处理,以获取纯语音估计值,能够提升背景噪声去除的效果,较好地排除语音识别过程中较大的背景噪声的干扰,提升语音识别的准确度。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种实时将语音进行分离的语音降噪的方法及系统。
背景技术
现有技术中,在一些支持语音操作的智能终端中往往必须用到语音识别的功能,即通过识别说话人的声纹以及语句得到智能终端能够执行的指令,并进而根据该指令执行相应的操作。由于说话人发出的声音在传播过程中夹杂了外界的噪音和说话人在说话时产生的噪音,因此接收到的语音主要包括两部分,一部分为携带有说话人声音及说话时产生噪音的语音,另一部分为声音在传输过程中由外界产生的噪音,因此在某些非说话人语音的噪声干扰较强的应用场合(例如应用在一个说话人较多的空间,或者所应用的空间的背景噪声较强),由于背景噪声与说话人的语音指令糅合在一起,会使语音识别更为困难,识别准确度大大降低。
由于外界的噪声可以是不断变换的,因此需要训练出与不断变换的噪声匹配的特征模型,识别噪声,以滤除噪声,但目前并不存在较为理想的关于噪声滤波的技术方案。
发明内容
根据现有技术中存在的上述问题,现提供一种实时将语音进行分离的语音降噪的方法及系统以及智能终端的技术方案,具体包括:
一种实时将语音进行分离的语音降噪的方法,适用于智能终端,提供一预设的特征模型,包括下述步骤:
步骤S1,采集外部输入的声源,并存储;
步骤S2,将所述声源根据接收的时间顺序分割为复数个预设时间段的语音;
步骤S3,根据所述时间顺序提取一所述语音,将所述语音与所述特征模型进行匹配,以获取与所述特征模型匹配的所述噪声,以及与所述初始特征模型不匹配的携带人声的所述语音,并生成所述语音的匹配标识,所述匹配标识用于表示所述语音与所述特征模型匹配完成;
步骤S4,将所述噪声追加为所述特征模型的噪声样本,并依据所述噪声样本对所述特征模型进行更新,以形成新的所述特征模型;
步骤S5,判断携带人声的所述语音的声音强度是否高于一预设的强度阈值,并在所述声音强度高于所述强度阈值时将所述语音确认为待判断语音,并转向步骤S6;
步骤S6,根据所述待判断语音的频谱,生成对应所述待判断语音上每个频带的估计标识,所述估计标识用于表示所述语音在谐波结构上的显著性;
步骤S7,将所述噪声作为参照样本,根据所述参照样本及所述待判断语音生成对应于所述待判断语音的纯语音的概率模型;
步骤S8,以每个所述估计标识作为对应的所述待判断语音的所述频带的权重指标,依据所述概率模型处理得到关联于所述语音的纯语音估计值;
步骤S9,根据所述时间顺序提取一未被标识的所述语音,将所述语音与所述特征模型进行匹配,以获取与新的所述特征模型匹配的所述噪声,以及与所述初始特征模型不匹配的携带人声的所述语音,并生成所述语音的匹配标识,返回执行所述步骤S4。
优选的,该实时将语音进行分离的语音降噪的方法,其中,所述步骤S6中生成的所述估计标识包括第一估计标识;或者
所述步骤S6中生成的所述估计标识包括第一估计标识和第二估计标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芋头科技(杭州)有限公司,未经芋头科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610024317.8/2.html,转载请声明来源钻瓜专利网。