[发明专利]一种基于听觉感知特性的语音质量客观评估的方法有效
申请号: | 201410696773.8 | 申请日: | 2014-11-27 |
公开(公告)号: | CN104485114B | 公开(公告)日: | 2018-03-06 |
发明(设计)人: | 李庆先;刘良江;卞昕;柏文琦;周鑫;彭正梁;徐昱 | 申请(专利权)人: | 湖南省计量检测研究院;中国计量科学研究院 |
主分类号: | G10L25/60 | 分类号: | G10L25/60 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410014 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 听觉 感知 特性 语音 质量 客观 评估 方法 | ||
技术领域
本发明涉及语音信号处理技术领域,具体为一种基于听觉感知特性的语音质量客观评估的方法。
背景技术
语音质量评价从评价主体上讲可分为两大类:主观评价和客观评价。
主观评价是以人为主体来评价语音的质量,该方式虽较为繁杂,但由于人是语音的最终接受者,因此这种评价是语音质量的真实反映。1996年ITU组织提出的平均意见得分(MOS)是一种广泛使用的主观评价方法,用测试者的平均意见分来直观地反映人对语音质量的感觉。主观评价的优点是符合人对语音质量的感觉,缺点是费时费力费钱,且灵活性不够,重复性和稳定性较差,受人的主观影响较大等。
为了克服主观评价的缺点,人们开始研究语音质量客观评价方法。研究语音质量客观评价的目的不是要用客观评价来完全替代主观评价,而是使客观评价成为一种既方便快捷又能够准确预测出主观评价值的语音质量评价手段。语音质量客观评价从评价方法上可分为侵入式(intrusive)和非侵入式(non-intrusive)。侵入式的评价通常也被称为双端或基于输入-输出的评价,它是以语音系统的输入信号和输出信号之间的误差大小来判断语音质量的好坏,通过提取两端语音信号的特征参量来建立评价模型。非侵入式的评价也被称为单端或基于输出的评价,它仅根据语音系统的输出信号来进行质量评价。
ITU-T在2001年发布的P.862感知评估通话质量测量PESQ(PerceptualEvaluationofSpeechQualityAnalysis)是当前性能很高的语音质量客观评价方法,能够较好地识别通信时延、环境噪声和错误,但其是基于Bark谱的感知模型,运算复杂度较高,不利于实时评价语音质量。由于PESQ测试标准的局限性,ITU-T于2011年提出了P.863POLQA(PerceptualObjectiveListeningQualityAnalysis)作为下一代语音质量测试技术,是对P.862的改进。可用于固定电话网络包括LTE在内的移动网络及IP电话网络。
人耳生理学研究表明,人耳听觉系统主要由外耳、中耳和内耳构成。语音信号在听觉系统中,依次通过外耳、中耳和内耳,在经过耳蜗基底膜的频带分解作用后,沿听觉通路进入听觉中枢系统。在整个听觉系统中,耳蜗是非常重要的核心部件。当外界的语音信号传入到耳蜗基底膜之后,基底膜将产生以行波传递形式的振动,且基底膜振动的听觉响应与受刺激的语音信号频率有关;基底膜的这种频率分解作用是人耳听觉系统进行声音信号处理的重要环节。在语音识别中,通常采用一组相互交叠的带通滤波器组模拟实现耳蜗基底膜的频率分解作用,本发明采用Gammatone滤波器组实现耳蜗模型。
Gammatone滤波器具有尖锐的频率选择特性,滤波器边沿的衰减很缓慢,有效地避免了相邻频带间的能量泄露,这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的,也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响;同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据,便于进行滤波器性能分析和听觉模型的实现。
发明内容
本申请的目的在于克服现有技术的不足,提供一种使用Gammatone滤波器组对耳蜗基底膜进行仿真,通过引入ITU-T P.863POLQA,提出一种基于听觉感知特性的语音质量客观评估的方法。
为了达到上述目的,本发明采用以下技术方案:
一种基于听觉感知特性的语音质量客观评估的方法,其特征在于:所述方法通过在频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波,具体步骤为:
1)通过POLQA处理参考信号和劣化信号,然后所述参考信号和劣化信号进入核心模型;
2)在所述核心模型中的频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波,再进行听觉变换,使提取的听觉频谱更接近人耳听觉感受;
3)通过听觉变换后,再进行干扰分析,分析所述劣化信号相对所述参考信号的失真,得出客观评价MOS分。
进一步,所述Gammatone滤波器是一个标准的耳蜗听觉滤波器,滤波器的时域脉冲响应为:
g(t)=Bntn-1e-2πBt cos(2πf0t+φ)u(t) (1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南省计量检测研究院;中国计量科学研究院,未经湖南省计量检测研究院;中国计量科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410696773.8/2.html,转载请声明来源钻瓜专利网。