[发明专利]基于深度学习的汽车引擎声实时合成系统及方法在审
| 申请号: | 202010767178.4 | 申请日: | 2020-08-03 |
| 公开(公告)号: | CN112652315A | 公开(公告)日: | 2021-04-13 |
| 发明(设计)人: | 李明;李昊;汪维清 | 申请(专利权)人: | 李昊;李明 |
| 主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L25/24;G10L25/30;G06N3/04;G06N3/08 |
| 代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 蔡悦 |
| 地址: | 215300 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 汽车 引擎 实时 合成 系统 方法 | ||
1.一种用于实时合成引擎声的方法,其特征在于,所述方法包括:
采集实时引擎转速数据和油门踏板压力数据;
将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值;以及
基于所述多个声音频率的预测能量值还原音频信号的相位以合成引擎声。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
在合成的引擎声上叠加环境噪声。
3.如权利要求1所述的方法,其特征在于,所述多个声音频率至少包括:
待合成的引擎的基频、半基频以及2倍基频。
4.如权利要求1所述的方法,其特征在于,所述能量预测模型基于循环神经网络RNN,其中针对所述多个声音频率中的每一个频率,构建一个由一个长短时记忆LSTM层以及若干个完全连接的层的RNN。
5.如权利要求1所述的方法,其特征在于,所述能量预测模型基于循环神经网络RNN,其中针对所述多个声音频率,构建一个具有相应数量个层级联的长短时记忆LSTM层的RNN。
6.如权利要求1所述的方法,其特征在于,还原音频信号的相位基于改进的Griffin-Lim算法,其逐帧地执行Griffin-Lim算法,并且只计算频谱能量非0处对应频率的相位。
7.一种用于实时合成引擎声的系统,其特征在于,所述系统包括:
采集模块,所述采集模块被配置成采集实时引擎转速数据和油门踏板压力数据;
能量预测模块,所述能量预测模块被配置成将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值;以及
合成模块,所述合成模块被配置成基于所述多个声音频率的预测能量值还原音频信号的相位以合成引擎声。
8.如权利要求7所述的系统,其特征在于,所述系统还包括:
背景噪声模块,所述背景噪声模块被配置成在合成的引擎声上叠加环境噪声。
9.一种汽车,其特征在于,所述汽车包括:
一个或多个传感器,所述一个或多个传感器被配置成收集所述汽车的运行状态信息和数据,所述汽车的运行状态信息和数据至少包括实时引擎转速数据和油门踏板压力数据;
引擎声合成系统,所述引擎声合成系统被配置成:
将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值;以及
基于所述多个声音频率的预测能量值还原音频信号的相位以合成引擎声;以及
车载系统,所述车载系统被配置成播放所述引擎声合成系统所合成的引擎声。
10.如权利要求9所述的汽车,其特征在于,所述车载系统进一步包括人机交互设备,所述人机交互设备被配置成从用户处接收对于待合成的引擎的具体型号的选择,并且
所述引擎声合成系统被进一步配置成本地或远程地获取与用户所选择的具体型号的引擎相对应的能量预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于李昊;李明,未经李昊;李明许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010767178.4/1.html,转载请声明来源钻瓜专利网。





