[发明专利]一种语音合成方法、装置、计算机设备和存储介质在审

申请号：	202110602393.3	申请日：	2021-05-31
公开（公告）号：	CN113327574A	公开（公告）日：	2021-08-31
发明（设计）人：	康世胤;刘峰;陀得意;游于人;王洁;吴志勇	申请（专利权）人：	广州虎牙科技有限公司;清华大学深圳国际研究生院
主分类号：	G10L13/08	分类号：	G10L13/08;G10L25/30
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	511400 广东省广州市番禺***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种语音合成方法、装置、计算机设备和存储介质，该方法包括：确定待合成语音的文本信息、说出所述文本信息的说话者及风格，从文本信息提取表征语言学的信息，作为语言信息，确定DurIAN网络为声学模型、HiFi‑GAN网络为声码器，将语言信息输入作为声学模型的DurIAN网络中、转换为符合说话者在风格下说文本信息时的频谱特征，将频谱特征输入作为声码器的HiFi‑GAN网络中、转换为符合说话者在风格下说文本信息时的语音信号，将DurIAN网络与HiFi‑GAN网络结合在TTS中使用，在低资源的情况下，可以保证克隆音色的鲁棒性，提高语音合成的自然度和作为克隆目标的说话者的音色的相似度。

技术领域

本发明实施例涉及语音处理的技术领域，尤其涉及一种语音合成方法、装置、计算机设备和存储介质。

背景技术

TTS(Text To Speech，文字转语音)旨在将文字转换为语音，是人机对话的一部分，让机器能够说话，近年来，随着声学模型和声码器技术的飞速发展，TTS在语音助手，有声读物和口语对话系统等许多领域都发挥着重要作用。

TTS可以为拥有大量高质量语音的说话者生成自然语音，几乎可以以假乱真，但是，TTS仍然受限于训练集是大量单一说话人且表现力不够丰富数据的的理想情况。

在低资源情况下，尤其是说话者的语言样本稀少且录音条件较差时，语音合成的鲁棒性较差，从而导致语音合成的自然度较差、说话人音色的相似度较差。

发明内容

本发明实施例提出了一种语音合成方法、装置、计算机设备和存储介质，以解决如何在低资源的情况下提高音色克隆的鲁棒性的问题。

第一方面，本发明实施例提供了一种语音合成方法，包括：

确定待合成语音的文本信息、说出所述文本信息的说话者及风格；

从所述文本信息提取表征语言学的特征，作为语言信息；

确定DurIAN网络为声学模型、HiFi-GAN网络为声码器；