[发明专利]一种基于文本信息的波形拼接语音合成方法在审

申请号：	201410816486.6	申请日：	2014-12-25
公开（公告）号：	CN104575488A	公开（公告）日：	2015-04-29
发明（设计）人：	徐明星	申请（专利权）人：	北京时代瑞朗科技有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/08
代理公司：	无	代理人：	无
地址：	100085 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本信息波形拼接语音合成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种波形拼接语音合成方法，尤其涉及一种基于文本信息的波形拼接语音合成方法，属于智能信息处理领域。

背景技术

语音作为人机交互的主要手段之一，语音合成主要目的是让计算机能够产生高清晰度、高自然度的连续语音。语音合成主要有两种方式，早期的研究主要是采用参数语音合成，最常用的合成方法是基于隐马尔柯夫的参数语音合成方法。该方法作为一种基于统计声学建模方法的具休实现，对语音的声学参数进行隐马尔柯夫建模，并通过参数生成算法来重构声学参数轨迹，最后调用语音合成器来产生语音波形。该方法的不足在于合成语音的音质、自然度和清晰度都不够理想，与实际语音具有较大的差距。另一种方法是基于语料库的语音拼接合成方法，该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接合成语音。但该方法虽能合成出较为接近原始语音的波形，但受限于语料库大小的制约，合成语音的稳定性不够理想(音库过大，合成语音速度较慢，无法实时合成；音库过小，合成语音不稳定)，很大程度上影响的听感。并且现有的拼接合成系统，在计算代价时缺少考虑文本信息对基元的影响，合成出的语音在韵律表现上也不是很好。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种基于文本信息的波形拼接语音合成方法。

为了解决以上技术问题，本发明采用的技术方案是：一种基于文本信息的波形拼接语音合成方法，该方法包括以下步骤：

步骤S1：通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练时长预测模型与训练权重预测模型；

步骤S2：采用分层预选方法，进行分层预选，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；

步骤S3：对目标基元、候选基元和权重预测模型预测的权重信息计算，获得目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。

训练时长预测模型包括以下步骤：

步骤S11：对原始音库进行音段切分，切分为波形拼接所需的最小基本单元，以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；

步骤S12：对所述原始音频对应文本进行文本分析，根据音段切分结果，提取所有基元对应的上下文文本的特征信息与时长信息，并与提取的声学参数一一对应；

步骤S13：根据与声学参数一一对应的文本特征与时长信息，采用决策树训练时长预测模型。

训练权重预测模型包括以下步骤：

步骤S1A：对原始音库进行音段切分，切分为波形拼接系统所需的最小基本单元，并以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；在本发明一实施例中，谱参数是提取的12阶梅尔倒谱系数；