[发明专利]多音源的噪声处理方法在审

申请号：	202111654359.7	申请日：	2021-12-30
公开（公告）号：	CN114613377A	公开（公告）日：	2022-06-10
发明（设计）人：	麦联韬;唐海江;朱宇;袁宇豪	申请（专利权）人：	杭州云嘉云计算有限公司
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L15/20;G10L25/30;G10L25/45
代理公司：	杭州杭诚专利事务所有限公司 33109	代理人：	尉伟敏
地址：	311100 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	多音噪声处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了多音源的噪声处理方法，包括以下步骤：S1：采集实时采音设备的各通道语音信号；S2：对通道语音进行特征分析和挖掘；S3：排除采集环境噪音的麦克风通道；S4：消除串音通道中串音音源；S5：将正常音源送入语音识别系统进行识别。具有防串音过程不受环境、硬件和参与人行为的影响，通过有效的声学特征提取和串音辨识策略模型，实时识别和过滤串音通道，显著降低了串音现象的发生。

技术领域

本发明涉及噪声处理技术领域，特别涉及多音源的噪声处理方法。

背景技术

目前多音源的噪声处理保证高识别准确率需要诸多前提，例如发言人讲话稳定清晰明了，且能被拾音设备平稳采集，发言人需逐一讲话，多人同时发言易出现错误的识别结果，最常见的错误现象是其他人讲话的识别结果在自己识别界面上出现，实录现场环境需保持安静，使白噪音少且需有均匀的收音环境。

现有技术中噪声处理技术存在许多问题：受环境、硬件和人为影响，存在串音情况。

例如，一种在中国专利文献上公开的“用于减小光学传感器中串音的方法”，其公告号：CN101688807A，其申请日：2008年5月30日，不增大传感器的尺寸或者不增大任何可靠性风险的情况下减小了串音，但是存在受环境、硬件和人为影响的情况。

发明内容

针对现有技术的不足，本发明提出了多音源的噪声处理方法，具有防串音过程不受环境、硬件和参与人行为的影响，通过有效的声学特征提取和串音辨识策略模型，实时识别和过滤串音通道，显著降低了串音现象的发生。

以下是本发明的技术方案，多音源的噪声处理方法，包括以下步骤：

S1：采集实时采音设备的各通道语音信号；

S2：对通道语音进行特征分析和挖掘；

S3：排除采集环境噪音的麦克风通道；

S4：消除串音通道中串音音源；

S5：将正常音源送入语音识别系统进行识别。

作为优选，所述S1存在n个采音设备，在第t时间帧的语音信号有4000个，则输出的数据是4000n的矩阵，某采音设备该时间帧采集到的数字信号

所述S2数字信号划分为200窗口大小，20窗口总数，维度为20×200的窗口数据，表达为512长度的矢量在对所有通道进行如上操作后，输出维度为512n的特征数据。

所述S3获取原始数字信号，分别建立功率指标判定。对某通道的声学数字信号，计算其功率对特征数据经过分类模型，输出其为噪音音源的概率若或超过阈值，无需进入后续分析步骤。

所述S4对各通道的特征数据进行相似度计算，对相似度高的通道，再通过马尔可夫过程进行数字信号的时序对齐，识别出在时间上有向后延迟的相似通道，并判定其为串音通道，存在n个通道的特征数据对两两相似度计算，输出相似度最高的三个通道u,v,w和相似度s_u,v、s_u,w和s_v,w，对u,v,w通道的原始采集到的声学数字信号进行时序对齐，判断串音通道和出现串音的概率，取每个通道在当前时间的特征数据和历史时间帧上的特征数据进行异常检测。

所述S5将正常音源送入语音识别系统进行识别，并将对应结果输出到其对应的角色通道进行显示。提高识别结果精确性和高效性。

所述判断串音通道的过程为：计算相似通道对之间相似的部分发生的时间段，并取概率最大的对齐路径，例如对齐后v通道和w通道均延后于u通道，v通道和w通道则是相对于u通道的串音通道。有效处理串音通道，提高识别结果精确性。

所述串音的概率计算方法为：某通道在该时间桢上的特征数据取K桢历史特征数据对该K+1帧的特征进行时序上的前馈记忆网络建模并输出建模结果串音的概率。计算串音的概率，在大量数据时，提高串音处理效率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州云嘉云计算有限公司，未经杭州云嘉云计算有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111654359.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种启发式自引入技术债务数据标注及训练方法和系统
下一篇：一种房建预制构件中转设备及方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多音源的噪声处理方法在审

专利文献下载