[发明专利]基于高斯模型模拟共鸣腔的语音合成方法、设备及介质有效
| 申请号: | 202010011587.1 | 申请日: | 2020-01-06 |
| 公开(公告)号: | CN111179902B | 公开(公告)日: | 2022-10-28 |
| 发明(设计)人: | 张广学;肖龙源;蔡振华;李稀敏;刘晓葳 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10L13/10 |
| 代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
| 地址: | 361009 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 模型 模拟 共鸣 语音 合成 方法 设备 介质 | ||
本发明公开了一种基于高斯模型模拟共鸣腔的语音合成方法、终端设备及介质,所述方法包括:分别构建说话人基频模型、强度模型、共鸣腔模型;获取被模拟说话人的基本语音;提取被模拟人正常情况下、异常情况下说话时的语速特征和/或强度特征;与现有强度模型进行匹配;若找到,相似的,则以该模型替换被模拟说话人的强度模型;提取被模拟说话人对元音因素的发音部分,并通过高斯模型来拟合该元音特征;通过相似度来调整高斯模型的参数;获取该音素的共鸣腔模型;输入待语音合成文本,输出模拟语音,本发明可以有效模拟目标人话语;可拓展性较强,适应人发生结构变化特征;仅需较少的被模拟人语音即可完成模型训练。
技术领域
本发明涉及语音合成领域,尤其涉及一种基于高斯模型模拟共鸣腔的语音合成方法、终端设备及介质。
背景技术
在导航、阅读、自动规划、自动提醒等方面,语音合成技术都有很大的应用场景。一个好的语音合成技术,可以很好的模拟人的声音和语气,达到以假乱真的程度。发音器官可以分为声门下系统、喉系统和声门上系统(共鸣腔)等三部分。现有的语音合成技术,对说话人在各种情况下的语速/能量控制效果不佳,不够自然。另外,需要从被模拟人处收集较多的语料,进而进行语音合成。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提出一种基于高斯模型模拟共鸣腔的语音合成方法、终端设备及存储介质,旨在在实现一个好的语音合成模型,本发明的设计构思主要分为三个部分,基频模型、强度模型、共鸣腔模型。其中,基频部分为被模拟人发不同音素时的语音基频,语速模块则为被模拟人正常、生气、高兴等情况下的说话语速/强度,共鸣腔模型则为说话人区别于其他人的声音特征的。
为达成上述目的,本发明的技术方案如下:
本发明提供了一种基于高斯模型模拟共鸣腔的语音合成方法,包括步骤一至步骤七:
步骤一,分别构建说话人基频模型、强度模型、共鸣腔模型;
所述构建说话人基频模型具体包括如下步骤:
采集说话人正常情况下进行元音音素发音时的基频特征,
根据上一步骤所述的基频特征构建该说话人相应元音音素的基频模型;
所述构建说话人强度模型具体包括如下步骤:
采集一定数量的人在正常情况下、异常情况下的语音;
通过声学模型确定各个元音音素的位置;
通过声学模型训练元音音素在正常情况下相应的转变特征、能量和语速模型;
通过声学模型训练元音音素在异常情况下相应的转变特征、能量和语速模型;
所述构建说话人共鸣腔模型具体包括如下步骤:
获取说话人的语音;
通过高斯模型模拟说话人在发不同元音时的共鸣腔特征;
步骤二,获取被模拟说话人的基本语音;提取被模拟人正常情况下说话时的语速特征和/或强度特征,提取被模拟人异常情况下说话时的语速特征和/或强度特征;
步骤三,与现有强度模型进行匹配;若找到相似的,则以该模型替换被模拟说话人的强度模型;
步骤四,提取被模拟说话人对元音的发音部分,并通过高斯模型来拟合该元音特征;
步骤五,通过相似度来调整高斯模型的参数;当高斯模型的拟合度达到预定值时,获取该音素的共鸣腔模型;
步骤六,输入待语音合成文本,通过说话人基频模型和说话人共鸣腔模型,模拟出每个字的发音;
步骤七,输出模拟语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010011587.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冷却塔
- 下一篇:芯片的智能化传送系统





