[发明专利]一种语音数据处理方法及装置有效

申请号：	201810093648.6	申请日：	2018-01-31
公开（公告）号：	CN110097871B	公开（公告）日：	2023-05-12
发明（设计）人：	薛少飞;田彪	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/26
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	李辉
地址：	英属开曼***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施方式公开了一种语音数据处理方法及装置。所述方法包括：获取麦克风录制的语音数据；获取所述麦克风所处的麦克风箱体的特征信息；将所述麦克风箱体的所述特征信息混响至所述语音数据中。利用本申请的技术方案，一方面，可以降低获取远场语音数据的成本，另一方面，利用鲁棒性较高的远场语音数据进行远场语音模型训练，可以获取具有较高准确性的远场语音模型，该远场语音模型对于后续的远场语音识别具有重要的意义。

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音数据处理方法处理方法及装置。

背景技术

近年来，语音识别技术取得显著进步，已经逐渐从实验室走向市场。典型地，语音识别技术已经在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等多个领域中广泛应用。语音识别技术所涉及的技术领域比较复杂，其中包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

远场语音识别技术是语音识别领域中的重要技术，目的在于能够在远距离条件下(通常是1m-5m)让机器识别人的语音。远场语音识别技术在智能家居(如智能音箱、智能电视等)、会议转录等场景都有重要的应用。由于真实环境中存在大量的噪声、多径反射和混响等干扰，导致拾取的语音信号质量较低。因此，通常情况下远场语音识别的准确率与近场语音识别相比会有大幅下降。基于此，在远场语音识别中，可以利用大量的远场语音数据进行模型训练以提高语音识别的准确率。在对远场语音识别进行模型训练的过程中，通常采用麦克风阵列的方式收集语音数据。但是，受设备、场地等因素的影响，录制远场语音数据比录制近场语音数据成本更高，大量的真实远场语音数据通常不易获得。因此，现有技术中，在对远场语音识别进行模型训练的过程中，可以利用近场语音数据模拟产生远场语音数据。利用近场语音数据模拟产生远场语音数据的目的在于使得模拟产生的远场语音数据与真实远场语音数据相接近，从而更好地进行模型训练。

但是，现有技术中训练得到的远场语音模型往往与真实的远场语音场景有较大的偏差。因此，现有技术中亟需一种能够模拟真实远场语音场景的语音数据处理技术。

发明内容

本申请实施方式的目的是提供一种语音数据处理方法及装置。一方面，可以降低获取远场语音数据的成本，另一方面，利用鲁棒性较高的远场语音数据进行远场语音模型训练，可以获取具有较高准确性的远场语音模型，该远场语音模型对于后续的远场语音识别具有重要的意义。

具体地，所述语音数据处理方法及装置是这样实现的：

一种语音数据处理方法，所述方法包括：

获取麦克风录制的语音数据；

确定所述麦克风所处的麦克风箱体的特征信息；

将所述麦克风箱体的所述特征信息混响至所述语音数据中。

一种语音数据处理方法，所述方法包括：

获取由多个麦克风组成的麦克风阵列录制的语音数据；

分别获取所述麦克风所处的麦克风箱体的特征信息；

将所述麦克风箱体的所述特征信息混响至所述语音数据中。