[发明专利]口音识别方法、装置、计算机装置及计算机可读存储介质在审

申请号：	201810922056.0	申请日：	2018-08-14
公开（公告）号：	CN109036437A	公开（公告）日：	2018-12-18
发明（设计）人：	张丝潆;王健宗;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/22;G10L25/24
代理公司：	深圳市赛恩倍吉知识产权代理有限公司 44334	代理人：	杨毅玲
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	口音识别语音信号有效语音计算机可读存储介质预处理计算机装置特征参数高斯混合模型通用背景模型倒谱系数梅尔频率矢量判决检测身份
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种口音识别方法，包括：对待识别语音信号进行预处理；检测预处理后的所述待识别语音信号中的有效语音；对所述有效语音提取梅尔频率倒谱系数MFCC特征参数；根据所述MFCC特征参数，利用预先训练好的高斯混合模型‑通用背景模型GMM‑UBM提取所述有效语音的身份矢量iVector；根据所述iVector计算所述待识别语音信号对给定口音的判决得分，根据所述判决得分得到所述待识别语音信号的口音识别结果。本发明还提供一种口音识别装置、计算机装置及计算机可读存储介质。本发明可以实现快速准确的口音识别。

技术领域

本发明计算机听觉技术领域，具体涉及一种口音识别方法及装置、计算机装置和计算机可读存储介质。

背景技术

随着各类智能身份认证的不断出现和落地应用，诸如人脸识别、声纹识别已经获得了较为成熟的发展，但识别的准确性依然有提升的空间，诸如在声纹识别方向仍然可找到突破点以得到更为准确的识别结果，口音因素就是一个。由于说话人所生活的地域不同，即使在都讲普通话的情况下或多或少依然会有口音的差别，若能在现有的声纹识别中加入口音识别作为补充，应用场景将会有进一步的扩展，最为直接的应用为在声纹识别前识别出该说话人所处地域的范围，进而缩小后续识别的对象范围。然而，现有的口音识别效果并不理想，识别速度较慢且准确度不高。

发明内容

鉴于以上内容，有必要提出一种口音识别方法及装置、计算机装置和计算机可读存储介质，其可以实现快速准确的口音识别。

本申请的第一方面提供一种口音识别方法，所述方法包括：

对待识别语音信号进行预处理；

检测预处理后的所述待识别语音信号中的有效语音；

对所述有效语音提取梅尔频率倒谱系数MFCC特征参数；

根据所述MFCC特征参数，利用预先训练好的高斯混合模型-通用背景模型GMM-UBM提取所述有效语音的身份矢量iVector；

根据所述iVector计算所述待识别语音信号对给定口音的判决得分，根据所述判决得分得到所述待识别语音信号的口音识别结果。

另一种可能的实现方式中，所述检测预处理后的所述待识别语音信号中的有效语音包括：

对预处理后的所述待识别语音信号进行加窗分帧，得到所述待识别语音信号的语音帧；

对所述语音帧进行离散傅里叶变换，得到所述语音帧的频谱；

根据所述语音帧的频谱计算各个频带的累计能量；