[发明专利]语音合成方法和装置有效
申请号: | 202110335308.1 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112927677B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 杨惠;吴雨璇;梁光;周鼎皓;陈昌儒 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/02 |
代理公司: | 北京睿派知识产权代理有限公司 11597 | 代理人: | 刘锋 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 | ||
本发明实施例公开了一种语音合成方法和装置,通过文本信息对应的音素序列、音频信息对应的音频特征向量序列以及目标场景对应的场景特征向量,根据音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息。本发明实施例通过在语音合成过程中直接引入场景特征,使得通过同一语音合成方式在不同场景合成情感、语气不同的语音,实现了语音信息与场景的自动匹配。
技术领域
本发明涉及语音合成领域,尤其涉及一种语音合成方法和装置。
背景技术
目前语音合成技术被广泛应用于各领域中,但不同的应用场景需要不同语气、情感的合成语音。现有技术在应对不同应用场景时会分别采用不同的语音合成方式,造成资源庞大的资源开销。
发明内容
有鉴于此,本发明实施例提供一种语音合成方法和装置,旨在自动合成与场景匹配的语音信息。
第一方面,本发明实施例提供了一种语音合成方法,所述方法包括:
确定文本信息和对应的音频信息;
确定所述文本信息对应的音素序列;
确定所述音频信息对应的音频特征向量序列,所述音频特征向量序列中包括多个音频特征向量;
确定目标场景对应的场景特征向量;
根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息。
进一步地,所述确定文本信息和对应的音频信息包括:
确定文本信息;
根据所述文本进行录制对应的音频信息。
进一步地,所述确定所述文本信息对应的音素序列包括:
确定所述文本信息中各文字对应的音素;
根据各所述音素确定音素序列,各所述音素在所述音素序列中的位置根据对应文字在时间维度上的顺序确定。
进一步地,所述确定所述音频信息对应的音频特征向量序列包括:
对所述音频信息进行分帧,得到包括多个音频信息片段的音频信息片段序列;
对各所述音频信息片段进行音频特征提取,以确定音频特征向量序列。
进一步地,所述对各所述音频信息片段进行音频特征提取具体为:
提取各所述音频信息片段的Fbank特征。
进一步地,所述确定目标场景对应的场景特征向量包括:
对多个预设的场景标识信息进行独热编码,以确定多个场景独热向量,所述场景标识信息用于表征对应的场景;
确定目标场景对应的场景独热向量为场景特征向量。
进一步地,所述根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息包括:
将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型,以输出对应的语音信息。
进一步地,所述语音合成模型包括特征对齐层、特征拼接层和语音合成层;
所述将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型,以输出对应的语音信息包括:
将所述音素序列和音频特征向量序列输入所述特征对齐层,输出音素向量序列;
将所述音素向量序列与所述场景特征向量输入所述特征拼接层进行特征拼接后输入语音合成层,以输出对应的语音信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110335308.1/2.html,转载请声明来源钻瓜专利网。