[发明专利]一种ARM侧离线语音合成的方法、装置及存储介质有效

申请号：	202110599311.4	申请日：	2021-05-31
公开（公告）号：	CN113362803B	公开（公告）日：	2023-04-25
发明（设计）人：	张毅;胡奎;姜黎	申请（专利权）人：	杭州芯声智能科技有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L25/18;G10L25/30
代理公司：	成都知都云专利代理事务所(普通合伙) 51306	代理人：	赵正寅
地址：	310000 浙江省杭州市杭州经济技术***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 arm 离线语音合成方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种ARM侧离线语音合成的方法，运用于具备音频处理、播放和/或传播功能的ARM侧设备中，其特征在于，在ARM侧部署音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器；采集需要进行离线语音合成的输入文本；将输入文本通过字符-索引字典转化为以索引为序列元素的输入文本序列；通过所述音素序列生成器将输入文本序列转化为所对应音素标签序列；通过音素—时间标签序列生成器将输入音素标签序列转化为对应音素—时间标签序列；通过声学特征生成器将音素—时间标签序列转化成所对应的梅尔频谱图；通过声码器将梅尔频谱图合成并转换成对应的语音数据；所述ARM侧设备对生成的语音数据进行播放和/或传播操作；

所述音素序列生成器、音素—时间标签序列生成器、声学特征生成器和声码器通过模型训练端产生；所述模型训练端包括机器学习语言学音素序列模型、神经网络时间标签模型、神经网络声学特征生成模型和神经网络声码模型，并通过语音合成训练数据对模型训练端进行训练；

所述语音合成训练数据包括训练用待合成语音文本、训练用待合成语音文本序列、训练用音素标签参考序列、训练用音素—时间标签参考序列、训练用梅尔频谱参考图和训练用合成语音参考数据；

所述机器学习语言学音素序列模型通过训练用待合成语音文本序列和训练用音素标签参考序列进行文本序列音素标注训练，得到能够根据输入文本序列输出对应音素标签序列的音素序列生成器；

所述神经网络时间标签模型通过训练用音素—时间标签参考序列和训练用音素标签参考序列进行音素—时间标注训练，得到能够根据输入音素标签序列输出对应音素—时间标签序列的音素—时间标签序列生成器；

所述神经网络声学特征生成模型通过训练用音素—时间标签参考序列和训练用梅尔频谱参考图进行时频图谱转化训练，得到能够根据输入音素—时间标签序列输出对应的梅尔频谱图的声学特征生成器；

所述神经网络声码模型通过训练用梅尔频谱参考图和训练用合成语音参考数据进行图谱-语音转化合成训练，得到能过根据输入梅尔频谱图合成并输出对应语音数据的声码器；

所述语音合成训练数据均为先验数据，并通过以下步骤进行生成：

所述训练用待合成语音文本通过人工或机器进行编写生成；

将所述训练用待合成语音文本通过字符-索引形式进行序列生成，得到训练用待合成语音文本序列；

将所述训练用待合成语音文本进行人工朗读并音频采集，得到训练用合成语音参考数据；

对训练用合成语音参考数据进行梅尔频谱图转换，得到训练用梅尔频谱参考图；

对训练用合成语音参考数据通过人工进行音素级标注，得到训练用音素标签参考序列；

将训练用音素标签参考序列与训练用合成语音参考数据进行时间向对齐并标注，得到训练用音素—时间标签参考序列。

2.根据权利要求1所述的一种ARM侧离线语音合成的方法，其特征在于，所述音素序列生成器通过机器学习语言学音素序列模型训练迁移产生，所述音素序列生成器包括文字-拼音转换层和拼音-音素转换层；

所述文字-拼音转换层通过隐马尔可夫模型将输入文本序列转化为输入文本拼音序列；

所述拼音-音素转换层对拼音序列进行分割和音素转换；通过对文字-拼音转换层提供的输入文本拼音序列进行声韵母分割得到输入文本拼音分割序列；将输入文本拼音分割序列中每个分割单元通过拼音-音素词典进行查找映射，得到对应的音素标签序列。

3.根据权利要求1所述的一种ARM侧离线语音合成的方法，其特征在于，所述声学特征生成器通过神经网络声学特征生成模型训练迁移产生，所述神经网络声学特征生成模型为Fastspeech 2模型，包括编码器与差分适配器；

所述编码器通过多层残差卷积网络组成，并用于提取训练用梅尔频谱参考图的高维特征信息，所述高维特征信息包括音素持续时间信息、力度信息和能量信息；

所述差分适配器包括Conv1d+ReLU层、LN+Dropout层和Linear Layer层；通过将音素持续时间信息、力度信息和能量信息输入差分适配器进行训练，得到音素持续时间预测层、力度预测层和能量预测层；通过音素持续时间预测层、力度预测层和能量预测层对音素—时间标签参考序列进行预测，并得到对应的梅尔频谱图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州芯声智能科技有限公司，未经杭州芯声智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110599311.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种老年人室内独自发生意外的及时救援系统
下一篇：一种便携式接线盒

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种ARM侧离线语音合成的方法、装置及存储介质有效

专利文献下载