[发明专利]发音质量评估系统中的置信度快速求取方法有效

专利信息
申请号: 200810240811.3 申请日: 2008-12-23
公开(公告)号: CN101645271A 公开(公告)日: 2010-02-10
发明(设计)人: 董滨;葛凤培;颜永红 申请(专利权)人: 中国科学院声学研究所;北京中科信利技术有限公司
主分类号: G10L19/00 分类号: G10L19/00;G10L15/02
代理公司: 北京法思腾知识产权代理有限公司 代理人: 杨小蓉
地址: 100190北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 发音 质量 评估 系统 中的 置信 快速 求取 方法
【说明书】:

技术领域

发明属于发音质量评估技术领域,具体地说,本发明涉及一种用于发音质量 评估系统中的置信度快速求取方法。

背景技术

在自然条件下使用发音质量评估系统,不同于在理想实验环境下的使用,这时 发音质量评估系统的性能会有很大的降低。而且对于真实的口语,在语音中会参杂 很多非语音,譬如非正常停顿、咳嗽声以及很多的环境噪声,这都给发音质量评估 系统达到原有的评估精度造成了困难。另外,用户说的词汇如果不在发音质量评估 系统预先设定的领域范围内,也较容易造成评估误差。总之,对于商业化的发音质 量评估系统,用户的期望是尽可能的准确评估发音质量,与此同时还要求比较快的 评估速度,而置信度评价方法正是解决这些困难的一种关键性措施。

置信度评价方法可以对发音质量评估系统的目标发音在特定的时间间隔内进行 假设检验,通过预先训练的阈值对待评估发音段的准确性进行评价,从而提高发音 质量评估系统的准确率和稳健性。

目前,把目标文本的后验概率作为计算发音评估的置信度是一种应用较广的做 法。例如,图1为现有的置信度计算方法的示意图。如图1所示,输入语音首先通 过全音节网络识别器进行一遍解码,在这个过程中,可以获得对应于输入语音的音 素分割点,然后在每个音素段内与目标音素强制对齐,从而获得目标文本对应的状 态分割点,最终计算出目标文本在待评估语音下的后验概率作为置信度得分。在解 码和置信度计算过程中,使用同一个描述精细的大声学模型,由于这种精细模型包 含大量的状态信息,所以有利于准确解码进而提高目标音素状态分割点的准确性, 但同时给后验概率计算造成了很大的计算量,需要占用更长的系统时间,从而很不 利于发音质量评估系统的在线使用和实际推广。

发明内容

本发明的目的是克服现有技术的不足,综合考虑计算速度和稳健性,提供一种 用于发音质量评估系统中的置信度快速求取方法,该方法是一种利用粗糙背景模型 的广义后验概率作为发音质量评估置信度的快速求取算法。

为实现上述发明目的,本发明提供的发音质量评估系统中的置信度快速求取方 法,包括如下步骤:

1)将待识别语音输入语音识别系统中;

2)对输入语音进行预处理,该预处理中包括分帧处理;

3)采用感知加权线性预测参数(PLP)特征提取方法或者美尔域倒谱系数 (MFCC)特征提取方法提取语音特征;

4)利用全音节循环网络状态图和精细声学模型,对特征向量序列进行解码,得 到最优路径,记录最优路径上的各音素分割点信息;

5)按照步骤4)中得到的音素分割点,根据精细声学模型和对应帧的特征向量, 对目标音素和语音帧做强制对齐处理,获得每一帧语音对应的状态号,并计算各帧 语音对应其相应状态的似然概率值p(xt|st),其负对数为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810240811.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top