[发明专利]一种基于文本信息的波形拼接语音合成方法在审
| 申请号: | 201410816486.6 | 申请日: | 2014-12-25 |
| 公开(公告)号: | CN104575488A | 公开(公告)日: | 2015-04-29 |
| 发明(设计)人: | 徐明星 | 申请(专利权)人: | 北京时代瑞朗科技有限公司 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08 |
| 代理公司: | 无 | 代理人: | 无 |
| 地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 信息 波形 拼接 语音 合成 方法 | ||
技术领域
本发明涉及一种波形拼接语音合成方法,尤其涉及一种基于文本信息的波形拼接语音合成方法,属于智能信息处理领域。
背景技术
语音作为人机交互的主要手段之一,语音合成主要目的是让计算机能够产生高清晰度、高自然度的连续语音。语音合成主要有两种方式,早期的研究主要是采用参数语音合成,最常用的合成方法是基于隐马尔柯夫的参数语音合成方法。该方法作为一种基于统计声学建模方法的具休实现,对语音的声学参数进行隐马尔柯夫建模,并通过参数生成算法来重构声学参数轨迹,最后调用语音合成器来产生语音波形。该方法的不足在于合成语音的音质、自然度和清晰度都不够理想,与实际语音具有较大的差距。另一种方法是基于语料库的语音拼接合成方法,该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接合成语音。但该方法虽能合成出较为接近原始语音的波形,但受限于语料库大小的制约,合成语音的稳定性不够理想(音库过大,合成语音速度较慢,无法实时合成;音库过小,合成语音不稳定),很大程度上影响的听感。并且现有的拼接合成系统,在计算代价时缺少考虑文本信息对基元的影响,合成出的语音在韵律表现上也不是很好。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种基于文本信息的波形拼接语音合成方法。
为了解决以上技术问题,本发明采用的技术方案是:一种基于文本信息的波形拼接语音合成方法,该方法包括以下步骤:
步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与训练权重预测模型;
步骤S2:采用分层预选方法,进行分层预选,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;
步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,获得目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。
训练时长预测模型包括以下步骤:
步骤S11:对原始音库进行音段切分,切分为波形拼接所需的最小基本单元,以切分后的基元为单位,按帧提取基频参数、梅尔倒谱参数与能量;
步骤S12:对所述原始音频对应文本进行文本分析,根据音段切分结果,提取所有基元对应的上下文文本的特征信息与时长信息,并与提取的声学参数一一对应;
步骤S13:根据与声学参数一一对应的文本特征与时长信息,采用决策树训练时长预测模型。
训练权重预测模型包括以下步骤:
步骤S1A:对原始音库进行音段切分,切分为波形拼接系统所需的最小基本单元,并以切分后的基元为单位,按帧提取基频参数、梅尔倒谱参数与能量;在本发明一实施例中,谱参数是提取的12阶梅尔倒谱系数;
步骤S1B:对所述原始音频对应文本进行文本分析,根据音段切分结果,提取所有基元对应的上下文文本的特征信息与时长信息,并与提取的声学参数一一对应:
步骤S1C:根据提取的所有基元的文本特征与声学特征,按基元进行分类;
步骤S1D:对于每一类基元,计算所有任意两个基元对应的文本特征参数与声学参数之间的距离,存储所有距离信息作为训练样本;
步骤S1F:采用决策树和线性回归算法(M5P),进行权重预测模型的训练。
文本的特征信息与时长信息作为决策树的节点,在叶节点处与声学参数的距离作线性回归;得到文本信息对应的权重。
分层预选包括以下步骤:
步骤S21:设置标识参数flag=0,第一层预选采用基元上下文特征信息作为预选信息进行预选;
步骤S22:第二层预选是在第一层预选的基础上,采用文本特征信息、词性和重音信息作为预选信息进行基元预选,如果标识参数flag=0,则执行步骤S23;如果标识参数flag=1,则输出第二层候选基元;
步骤S23:第三层预选是在第二层预选的基础上,采用根据文本特征预测出来的时长信息作为预选信息进行预选,如果候选基元个数不为0,设置标识参数flag=1,返回步骤S21;如果候选基元个数不为0,则输出第三层候选基元。
获得目标代价包括以下步骤:
步骤S31:根据待合成语句的文本分析结果提取的相关基元的文本参数作为目标基元的参数,经过分层预选后的基元的文本参数作为候选基元的参数;
步骤S32:计算目标基元与候选基元文本特征之间的距离,结合预测出的权重信息,经过线性回归运算得到的结果即为目标代价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京时代瑞朗科技有限公司;,未经北京时代瑞朗科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410816486.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能优盘
- 下一篇:栅极脉冲调变电路及其削角调变方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





