[发明专利]一种多歌者歌声合成方法及装置有效
申请号: | 202011367298.1 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112466313B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 刘书君;王昆;朱海;周琳岷 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L19/16 | 分类号: | G10L19/16;G10L19/02;G10L15/02;G10L25/30 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 赵以鹏 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多歌者 歌声 合成 方法 装置 | ||
本发明公开了一种多歌者歌声合成方法,属于语音合成技术领域。该合成方法,包括包含模型训练和模型推理两阶段,模型推理部分最终部署于装置中。模型训练包括:获取多歌者歌声数据,并提取乐句特征、音素发音时长和音频频谱特征,其中各个乐句特征和音素发音时长按照歌词所展开的音素序列顺序排列,并且其长度和音素个数保持一致,发音时长的总帧数和对应频谱总帧数保持一致;为不同歌者的数据库生成歌者向量;将乐句特征和歌者向量作为模型的输入、将频谱特征和发音时长作为模型拟合的目标联合训练模型。模型采用对抗生成网络技术用以区分不同歌者的音色和发音特点,并保持合成歌声质量接近原声。
技术领域
本发明涉及语音合成技术领域,更具体的说是涉及一种多歌者歌声合成方法及装置。
背景技术
随着歌声合成技术的逐渐完善,由此技术衍生的虚拟偶像、唱歌机器人、音乐教育以及音乐泛娱乐应用等也逐步进入人们的生活,同时也对歌声合成的质量、可控性、多样性提出更高的要求。多歌者歌声合成是一门利用一个模型产生多个不同歌者音色的歌声合成技术,该技术输入乐谱和指定的歌者信息合成出指定歌者音色的歌声,从而实现歌声合成的多样性。多人语音合成技术已逐渐成熟,但多歌者歌声合成技术依然存在巨大的挑战并且在业界鲜有人尝试。
由于歌声数据库获取成本高、数据量小以及不同音高分布不均衡,直接采取多人语音合成的方法实现多歌者歌声成容易造成模型对数据欠拟合以及模型参数对不同歌者过于平均,导致歌声发音不清晰、歌者之间音色区分度低。
发明内容
本发明的目的在于提供一种多歌者歌声合成方法及装置,以期解决上述技术问题。
为了实现上述目的,本发明采用以下技术方案:
1、一种多歌者歌声合成方法,其特征在于,包括训练阶段和推理阶段:
训练阶段包括以下步骤:
S11.解析多歌者歌声数据,并提取数据的乐句特征、乐句对应的音素发音时长和乐句对应的音频频谱特征;
S12.为每个歌声数据库生成歌者向量;
S13.将乐句特征和歌者向量作为模型输入,频谱特征和发音时长作为模型输出,并采用生成对抗网络作为模型的损失函数联合训练该模型;
推理阶段包括以下步骤:
S21.解析乐谱并提取乐谱的乐句特征,生成歌者向量;
S22.将步骤S21所获取的乐句特征和歌者向量共同输入到S13得到的模型,从模型编码器得到声学特征,从模型的时长预测器得到每个音素的发音时长;
S23.根据乐谱中乐句时长调整其所对应合成音素的发音时长;
S24.根据每个音素的发音时长扩展声学特征,并将扩展之后的声学特征输入到模型解码器生成频谱;
S25.利用步骤S24为每个乐句生成的频谱输入到声码器生成乐句相应歌声音频片段,并将所有音频片段按照乐句在乐谱中的出现顺序拼接为完整的歌声音频。
近一步地,所述步骤S11包括:
对多个歌者的乐谱数据文件解析出歌词、音符音高和音符时长信息;
按照乐谱中休止符的位置将每张乐谱分割成多个乐句,休止符归属于该休止符之前的乐句;
将每个乐句相应的歌词信息转换为声韵级别的音素序列,按照歌词顺序排列音素序列,并将排列后音素序列映射为整数向量;
将每个乐句相对应的音符音高信息和音符时长信息按照顺序排列的音素序列分别展开,得到和音素序列个数一致的音符音高序列和音符时长序列,并将音符音高序列和音符时长序列分别映射为整数向量和浮点数向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011367298.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗衰老压片糖果及其制作方法
- 下一篇:枸杞蜂蜜