[发明专利]一种多歌者歌声合成方法及装置有效

申请号：	202011367298.1	申请日：	2020-11-27
公开（公告）号：	CN112466313B	公开（公告）日：	2022-03-15
发明（设计）人：	刘书君;王昆;朱海;周琳岷	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G10L19/16	分类号：	G10L19/16;G10L19/02;G10L15/02;G10L25/30
代理公司：	四川省成都市天策商标专利事务所(有限合伙) 51213	代理人：	赵以鹏
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多歌者歌声合成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多歌者歌声合成方法，属于语音合成技术领域。该合成方法，包括包含模型训练和模型推理两阶段，模型推理部分最终部署于装置中。模型训练包括：获取多歌者歌声数据，并提取乐句特征、音素发音时长和音频频谱特征，其中各个乐句特征和音素发音时长按照歌词所展开的音素序列顺序排列，并且其长度和音素个数保持一致，发音时长的总帧数和对应频谱总帧数保持一致；为不同歌者的数据库生成歌者向量；将乐句特征和歌者向量作为模型的输入、将频谱特征和发音时长作为模型拟合的目标联合训练模型。模型采用对抗生成网络技术用以区分不同歌者的音色和发音特点，并保持合成歌声质量接近原声。

技术领域

本发明涉及语音合成技术领域，更具体的说是涉及一种多歌者歌声合成方法及装置。

背景技术

随着歌声合成技术的逐渐完善，由此技术衍生的虚拟偶像、唱歌机器人、音乐教育以及音乐泛娱乐应用等也逐步进入人们的生活，同时也对歌声合成的质量、可控性、多样性提出更高的要求。多歌者歌声合成是一门利用一个模型产生多个不同歌者音色的歌声合成技术，该技术输入乐谱和指定的歌者信息合成出指定歌者音色的歌声，从而实现歌声合成的多样性。多人语音合成技术已逐渐成熟，但多歌者歌声合成技术依然存在巨大的挑战并且在业界鲜有人尝试。

由于歌声数据库获取成本高、数据量小以及不同音高分布不均衡，直接采取多人语音合成的方法实现多歌者歌声成容易造成模型对数据欠拟合以及模型参数对不同歌者过于平均，导致歌声发音不清晰、歌者之间音色区分度低。

发明内容

本发明的目的在于提供一种多歌者歌声合成方法及装置，以期解决上述技术问题。

为了实现上述目的，本发明采用以下技术方案：

1、一种多歌者歌声合成方法，其特征在于，包括训练阶段和推理阶段：

训练阶段包括以下步骤：

S11.解析多歌者歌声数据，并提取数据的乐句特征、乐句对应的音素发音时长和乐句对应的音频频谱特征；

S12.为每个歌声数据库生成歌者向量；

S13.将乐句特征和歌者向量作为模型输入，频谱特征和发音时长作为模型输出，并采用生成对抗网络作为模型的损失函数联合训练该模型；

推理阶段包括以下步骤：

S21.解析乐谱并提取乐谱的乐句特征，生成歌者向量；

S22.将步骤S21所获取的乐句特征和歌者向量共同输入到S13得到的模型，从模型编码器得到声学特征，从模型的时长预测器得到每个音素的发音时长；