[发明专利]一种远场声音分类方法和装置在审
| 申请号: | 202010402018.X | 申请日: | 2020-05-13 |
| 公开(公告)号: | CN111540346A | 公开(公告)日: | 2020-08-14 |
| 发明(设计)人: | 关昊天;史昊;吕永杰;廖启波 | 申请(专利权)人: | 慧言科技(天津)有限公司;深圳市康鸿泰科技有限公司 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/16;G10L15/06;G10L15/20 |
| 代理公司: | 深圳市智胜联合知识产权代理有限公司 44368 | 代理人: | 齐文剑 |
| 地址: | 300450 天津市滨海新区华苑产业区*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 声音 分类 方法 装置 | ||
1.一种远场声音分类方法,其特征在于,包括:
利用人工智能模型的自学能力建立远场声音分类关系,其中,所述人工智能模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度信息的卷积神经网络建立的远场声音分类关系;
获取目标区域内的语音信号;
基于所述语音信号的振幅信息对所述语音信号进行特征提取,得到语谱图;
将所述语谱图输入到所述利用人工智能模型的自学能力建立的远场声音分类关系中,得到分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述语音信号的振幅信息对所述语音信号进行特征提取,得到语谱图的步骤,包括:
将所述语音信号进行分帧、加窗及傅里叶变化,得到对应的语谱图。
3.根据权利要求2所述的方法,其特征在于,所述将所述语音信号进行分帧、加窗及傅里叶变化,得到对应的语谱图的步骤,包括:
对所述语音信号进行分帧和加窗处理,得到预处理信号;
对所述预处理信号进行短时傅里叶变换,得到语音特征;
提取所述语音特的的绝对值,得到所述对应的语谱图的振幅。
4.根据权利要求1所述的方法,其特征在于,所述将所述语谱图输入到利用人工智能模型的自学能力建立的远场声音分类关系中,得到分类结果的步骤之后,还包括:
利用所述分类结果与预设声音类别计算出声音分类的准确率;
当所述准确率超出预设阈值时,对所述人工智能模型进行训练。
5.根据权利要求1所述的方法,其特征在于,所述利用人工智能模型的自学能力建立远场声音分类关系的步骤,包括:
选取所述语音信号对应的语谱图作为训练样本,将所述训练样本输入到卷积神经网络进行训练,得到实际训练结果。
6.根据权利要求1所述的方法,其特征在于,所述利用人工智能模型的自学能力建立远场声音分类关系的步骤,还包括:
利用预设场景下的数据作为训练样本,将所述训练样本输入到卷积神经网络进行训练,得到实际训练结果;所述预设场景下的数据包括干净声音数据、模拟声音数据和真实声音数据。
7.根据权利要求6所述的方法,其特征在于,
所述干净声音数据是从预设声场数据库中选取出来;
和/或,
所述模拟声音数据是利用模拟噪声、混响数据与所述干净声音数据进行叠加和卷积合成;
和/或,
所述真实声音数据是通过麦克风采集不同噪声场景下的数据。
8.一种远场声音分类装置,其特征在于,包括:
模型训练模块,用于利用人工智能模型的自学能力建立远场声音分类关系,其中,所述人工智能模型的自学能力建立的远场声音分类关系是基于数据增广和多尺度信息的卷积神经网络建立的远场声音分类关系;
数据采集模块,用于获取目标区域内的语音信号;
特征提取模块,用于基于所述语音信号的振幅信息对所述语音信号进行特征提取,得到语谱图;
语音分类模块,用于将所述语谱图输入到所述利用人工智能模型的自学能力建立的远场声音分类关系中,得到分类结果。
9.电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的远场声音分类方法的步骤。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的远场声音分类方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司;深圳市康鸿泰科技有限公司,未经慧言科技(天津)有限公司;深圳市康鸿泰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010402018.X/1.html,转载请声明来源钻瓜专利网。





