[发明专利]一种基于统计参数的疑问句、感叹句的语音合成方法在审
申请号: | 201610000676.X | 申请日: | 2016-01-04 |
公开(公告)号: | CN105654942A | 公开(公告)日: | 2016-06-08 |
发明(设计)人: | 徐明星;车浩 | 申请(专利权)人: | 北京时代瑞朗科技有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L13/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统计 参数 疑问句 感叹句 语音 合成 方法 | ||
1.一种基于统计参数的疑问句、感叹句的语音合成方法,其特征在于, 该方法分为以下三个部分:
第一部分:通过对陈述句的模型训练,得到陈述句的初始声学模型;
获取大规模陈述句的录音语料作为训练语料,训练基于隐半马尔科夫模型 的声学模型或者基于深度神经网络的声学模型作为初始声学模型;
初始声学模型采用多空间概率分布-隐半马尔科夫模型进行建模,首先分 别通过文本标注和语音信号提取激励参数、谱参数,将基频以及谱参数融合为 一个向量,然后加入一阶、二阶动态参数作为多空间概率分布-隐半马尔科夫 模型训练的输入,最终得到陈述句的基于多空间概率分布-隐半马尔科夫模型 初始声学模型;
或者,初始声学模型采用深度神经网络进行建模,使用多任务学习方式, 用深度神经网络完成文本到语音声学参数的映射,得到基于深度神经网络的初 始声学模型;
第二部分:通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的 声学模型;
获取小规模的疑问句或感叹句的录音语料作为训练语料,再经过文本标注 以及语音信号进行参数提取,然后根据在第一部分中得到的基于多空间概率分 布-隐半马尔科夫模型初始声学模型的基础上进行自适应训练,得到疑问句或 感叹句的基于多空间概率分布-隐半马尔科夫模型的声学模型;
或者根据在第一部分中得到的基于深度神经网络的初始声学模型的基础上 进行自适应训练,在基于多任务学习方式的基础上调整深度神经网络模型,得 到疑问句或感叹句的基于深度神经网络的声学模型;
第三部分:根据疑问句或感叹句的声学模型,实现疑问句或感叹句的语音 生成;
对于待合成语音的文本,进行文本分析,采用经过第二部分得到的疑问句 或感叹句的基于多空间概率分布-隐半马尔科夫模型的声学模型或者基于深度 神经网络的声学模型进行语音参数的生成,然后经过语音声码器,最终合成出 疑问句或者感叹句的语音。
2.根据权利要求1所述的基于统计参数的疑问句、感叹句的语音合成方 法,其特征在于:所述基于深度神经网络的初始声学模型,包括以上、下文相 关的文本特征作为深度神经网络的输入,以声学参数作为深度神经网络的输 出;
所述上、下文相关文本特征包括音素、音节位置、短语位置;声学参数包 括谱、基频、清浊音判决;
所述多任务学习方式的深度神经网络,将清浊音判决作为深度神经网络的 第二个学习任务;深度神经网络的输出层中有一个神经元被加上softmax回归 模型的soft-max层,输出为清浊音判决;有一个线性变换层,输出为语音参 数;这两层平行堆叠在经过预训练的隐层之上。
3.根据权利要求1所述的基于统计参数的疑问句、感叹句的语音合成方 法,其特征在于:所述基于多空间概率分布-隐半马尔科夫模型的声学模型, 采用基于受限极大似然线性回归和结构化最大后验概率相融合的自适应方法进 行训练,该方法包括先采用基于受限极大似然线性回归对基于多空间概率分 布-隐半马尔科夫模型的初始声学模型涉及的所有模型参数进行大规模调整, 再采用结构化最大后验概率对自适应数据中出现的相应模型进行参数的自适应 训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京时代瑞朗科技有限公司,未经北京时代瑞朗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610000676.X/1.html,转载请声明来源钻瓜专利网。