[发明专利]一种语音数据处理方法及装置有效
申请号: | 201810093648.6 | 申请日: | 2018-01-31 |
公开(公告)号: | CN110097871B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 薛少飞;田彪 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/26 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 数据处理 方法 装置 | ||
本申请实施方式公开了一种语音数据处理方法及装置。所述方法包括:获取麦克风录制的语音数据;获取所述麦克风所处的麦克风箱体的特征信息;将所述麦克风箱体的所述特征信息混响至所述语音数据中。利用本申请的技术方案,一方面,可以降低获取远场语音数据的成本,另一方面,利用鲁棒性较高的远场语音数据进行远场语音模型训练,可以获取具有较高准确性的远场语音模型,该远场语音模型对于后续的远场语音识别具有重要的意义。
技术领域
本申请涉及语音识别技术领域,特别涉及一种语音数据处理方法处理方法及装置。
背景技术
近年来,语音识别技术取得显著进步,已经逐渐从实验室走向市场。典型地,语音识别技术已经在工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等多个领域中广泛应用。语音识别技术所涉及的技术领域比较复杂,其中包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
远场语音识别技术是语音识别领域中的重要技术,目的在于能够在远距离条件下(通常是1m-5m)让机器识别人的语音。远场语音识别技术在智能家居(如智能音箱、智能电视等)、会议转录等场景都有重要的应用。由于真实环境中存在大量的噪声、多径反射和混响等干扰,导致拾取的语音信号质量较低。因此,通常情况下远场语音识别的准确率与近场语音识别相比会有大幅下降。基于此,在远场语音识别中,可以利用大量的远场语音数据进行模型训练以提高语音识别的准确率。在对远场语音识别进行模型训练的过程中,通常采用麦克风阵列的方式收集语音数据。但是,受设备、场地等因素的影响,录制远场语音数据比录制近场语音数据成本更高,大量的真实远场语音数据通常不易获得。因此,现有技术中,在对远场语音识别进行模型训练的过程中,可以利用近场语音数据模拟产生远场语音数据。利用近场语音数据模拟产生远场语音数据的目的在于使得模拟产生的远场语音数据与真实远场语音数据相接近,从而更好地进行模型训练。
但是,现有技术中训练得到的远场语音模型往往与真实的远场语音场景有较大的偏差。因此,现有技术中亟需一种能够模拟真实远场语音场景的语音数据处理技术。
发明内容
本申请实施方式的目的是提供一种语音数据处理方法及装置。一方面,可以降低获取远场语音数据的成本,另一方面,利用鲁棒性较高的远场语音数据进行远场语音模型训练,可以获取具有较高准确性的远场语音模型,该远场语音模型对于后续的远场语音识别具有重要的意义。
具体地,所述语音数据处理方法及装置是这样实现的:
一种语音数据处理方法,所述方法包括:
获取麦克风录制的语音数据;
确定所述麦克风所处的麦克风箱体的特征信息;
将所述麦克风箱体的所述特征信息混响至所述语音数据中。
一种语音数据处理方法,所述方法包括:
获取由多个麦克风组成的麦克风阵列录制的语音数据;
分别获取所述麦克风所处的麦克风箱体的特征信息;
将所述麦克风箱体的所述特征信息混响至所述语音数据中。
一种语音数据处理装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取麦克风录制的语音数据;
确定所述麦克风所处的麦克风箱体的特征信息;
将所述麦克风箱体的所述特征信息混响至所述语音数据中。
一种语音数据处理装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取由多个麦克风组成的麦克风阵列录制的语音数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810093648.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:宽频声学超材料
- 下一篇:一种音频处理方法及电子设备