[发明专利]基于Fisher混合特征和神经网络的语音鉴别方法和系统在审
| 申请号: | 201911130906.4 | 申请日: | 2019-11-19 |
| 公开(公告)号: | CN110782877A | 公开(公告)日: | 2020-02-11 |
| 发明(设计)人: | 苏兆品;季仁杰;葛昭旭;陈清;郑宁军;李顺宇;张国富;岳峰 | 申请(专利权)人: | 合肥工业大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L25/03;G10L25/24 |
| 代理公司: | 11542 北京久诚知识产权代理事务所(特殊普通合伙) | 代理人: | 余罡 |
| 地址: | 230009 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 混合特征 语音鉴别 语音样本 语音 神经网络 集合 合成语音数据 训练神经网络 语音识别技术 数据库数据 智能 单一特征 模型判断 算法合成 特征获取 语音特征 有效地 准确率 预设 鉴别 合成 | ||
本发明提供一种于Fisher混合特征和神经网络的语音鉴别方法和系统,涉及语音识别技术领域。本发明首先获取待测语音和包括智能合成语音数据与自然人声数据库数据在内的语音样本集合,再获取语音样本集合中语音样本的MFCC特征和CQCC特征;然后基于Fisher准则、MFCC特征和CQCC特征获取语音样本的MFCC‑CQCC混合特征;基于混合特征和预设的神经网络获取语音鉴别模型;最后基于语音鉴别模型判断待测语音是智能合成语音还是自然人声。本发明在语音特征的选取上,没有选取单一特征,而是选用了基于Fisher准则的MFCC‑CQCC混合特征,该特征有机地结合了MFCC和CQCC特征,可以有效地鉴别多种算法合成的语音,运用该混合特征训练神经网络获取语音鉴别模型,能有效提高语音鉴别模型的准确率。
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于Fisher混合特征和神经网络的语音鉴别方法和系统。
背景技术
随着语音信号处理技术的不断发展,利用说话人语音信号进行身份认证的系统在诸多行业得到了广泛的应用。在利用说话人语音信号进行身份认证存在较大的安全隐患,其中的安全隐患包括,利用合成语音冒充说话人语音。因此,如何鉴别合成语音和自然人声是消除安全隐患的关键。
在现有技术中,常见的语音鉴别系统是利用语音特征是用来鉴别待测语音是合成语音或自然人声。语音特征主要包括MFCC特征和CQCC特征。
然而本申请的发明人发现,现有技术中的语音鉴别系统未考虑到合成语音的音质和合成语音的多种类型,导致语音鉴别的准确率低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于Fisher混合特征和神经网络的语音鉴别方法和系统,解决了现有的语音鉴别系统准确率低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供了一种基于Fisher混合特征和神经网络的语音鉴别方法,所述方法由计算机执行,包括以下步骤:
S1、获取语音样本集合和待测语音,所述语音样本集合包括智能合成语音数据和自然人声数据库数据;
S2、获取所述语音样本集合中语音样本的MFCC特征和CQCC特征;
S3、基于Fisher准则、MFCC特征和CQCC特征获取所述语音样本集合中语音样本的MFCC-CQCC混合特征;
S4、基于所述MFCC-CQCC混合特征和预设的神经网络获取语音鉴别模型;
S5、基于语音鉴别模型获取待测语音所属类型,其中,所述类型包括智能合成语音和自然人声。
优选的,所述Fisher准则的公式如下:
其中:rF是特征分量的Fisher比,σb表示特征分量的类间方差,σw表示特征分量的类内方差。
优选的,在S3中,所述获取语音样本集合中语音样本的MFCC-CQCC混合特征的方法,包括:
S301、获取语音样本集合中所有语音样本的MFCC特征的特征分量的类间方差σb和所有语音样本的CQCC特征的特征分量的类间方差σb;公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911130906.4/2.html,转载请声明来源钻瓜专利网。





