[发明专利]用于波形拼接语音合成的选音方法和装置有效
申请号: | 201610035220.7 | 申请日: | 2016-01-19 |
公开(公告)号: | CN105719641B | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 张辉;李秀林 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L13/033 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 波形 拼接 语音 合成 方法 装置 | ||
1.一种用于波形拼接语音合成的选音方法,其特征在于,包括:
获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的;
获取预先生成的机器学习模型;
根据所述标注信息和所述机器学习模型进行机器学习预选,得到候选音子波形片断;
所述根据所述标注信息和所述机器学习模型进行机器学习预选,得到候选音子波形片断,包括:
根据所述待合成文本对应的标注信息,对应每个音子,遍历所述音子对应的音子树,获取所述音子树的叶子节点关联的HMM;
根据所述HMM与波形片断的对应关系,获取与所述叶子节点关联的HMM对应的波形片断,将所述波形片断确定为得到候选音子波形片断。
2.根据权利要求1所述的方法,其特征在于,当所述机器学习模型是音子树时,所述方法还包括:
获取音子样本的标注信息及音子样本的波形片断,并根据所述音子样本的标注信息,训练得到HMM,以及,建立HMM与波形片断的对应关系;
对应每个音子,对所述音子对应的HMM进行决策树聚类,得到所述音子对应的音子树。
3.根据权利要求2所述的方法,其特征在于,所述音子树中,每个非叶子节点对应一个最优的分裂问题,每个叶子节点关联一个或多个HMM。
4.根据权利要求3所述的方法,其特征在于,所述最优的分裂问题是使得分裂前后对数似然值增量最大的问题,当分裂前后对数似然增量小于预设阈值时,停止分裂,其中,所述预设阈值根据MDL准则确定。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取声学参数,所述声学参数是根据所述标注信息进行声学参数预测后得到的;
根据所述声学参数和所述候选音子波形片断,进行代价计算,选择出最优音子波形片断序列,以便对所述最优音子波形片断序列中的波形片断进行拼接,得到合成语音。
6.一种用于波形拼接语音合成的选音装置,其特征在于,包括:
第一获取模块,用于获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的;
第二获取模块,用于获取预先生成的机器学习模型;
预选模块,用于根据所述标注信息和所述机器学习模型进行机器学习预选,得到预选后的音子;
所述预选模块具体用于:
根据所述待合成文本对应的标注信息,对应每个音子,遍历所述音子对应的音子树,获取所述音子树的叶子节点关联的HMM;
根据所述HMM与波形片断的对应关系,获取与所述叶子节点关联的HMM对应的波形片断,将所述波形片断确定为得到候选音子波形片断。
7.根据权利要求6所述的装置,其特征在于,当所述机器学习模型是音子树时,所述装置还包括:
建模模块,用于获取音子样本的标注信息及音子样本的波形片断,并根据所述音子样本的标注信息,训练得到HMM,以及,建立HMM与波形片断的对应关系;
聚类模块,用于对应每个音子,对所述音子对应的HMM进行决策树聚类,得到所述音子对应的音子树。
8.根据权利要求6所述的装置,其特征在于,还包括:
第三获取模块,用于获取声学参数,所述声学参数是根据所述标注信息进行声学参数预测后得到的;
确定模块,用于根据所述声学参数和所述候选音子波形片断,进行代价计算,选择出最优音子波形片断序列,以便对所述最优音子波形片断序列中的波形片断进行拼接,得到合成语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610035220.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:GSM信号频点检测方法及其装置
- 下一篇:电信网络多维监控方法