[发明专利]基于半监督特征学习的语音转换方法在审

申请号：	202111277502.5	申请日：	2021-10-30
公开（公告）号：	CN114023343A	公开（公告）日：	2022-02-08
发明（设计）人：	李学龙;张强;陈穆林	申请（专利权）人：	西北工业大学
主分类号：	G10L21/007	分类号：	G10L21/007;G10L15/06
代理公司：	西北工业大学专利中心 61204	代理人：	常威威
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于监督特征学习语音转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于半监督特征学习的语音转换方法，其特征在于步骤如下：

步骤1：利用开源语音包librosa对训练集中的每一条语音数据进行预处理，包括读入语音数据，对每一条语音数据进行预加重、加窗和分帧处理，对已分帧的语音数据的每一帧进行短时傅里叶变换，将其从时域信号转换为频域信号，再对转换为频域信号的语音数据进行筛选处理，得到符合长度的语音段，训练集中所有经过预处理的语音段构成声学特征段集合；

从训练集随机选取不超过半数的说话人，并将这些说话人的语音数据输入到广义端对端损失设计的编码器，提取得到表示说话人身份信息的声学特征；所述的编码器由长短期记忆网络层和线性层构成，长短期记忆网络层的输入、输出和隐藏层维度分别为80、256、256，线性层的输入、输出维度均为256，线性层的激活函数为ReLu函数，编码器采用端对端损失约束；

步骤2：构建语音转换网络，包括变分自编码器、解码器和后置网络，其中，变分自编码器包括说话人编码器和内容编码器两个分支，说话人编码器由两个单元大小为768的长短期记忆网络层组成，从输入的语音数据中提取得到说话人身份信息；内容编码器由3个5×1卷积层、2个单元大小为32的双向长短期记忆网络层和1个实例归一化层组成，从输入的语音数据中提取得到语音内容表示；解码器由3个5×1卷积层和3个单元维度为1024的长短期记忆网络层组成，将说话人编码器提取到的说话人身份信息和内容编码器提取到的语言内容表示输入到解码器，得到新的语音数据；后置网络由5个5×1的卷积层组成，对解码器的输出进行残差信号提取，提取到的信号与解码器的输出相加，得到重建后的语音数据；

所述的语音转换网络的损失函数设置如下：

L＝L_con+L_spe+L_reco (1)

其中，L表示网络总损失，L_con表示内容编码器损失，L_spe表示说话人身份信息损失，L_reco表示自重建损失，分别按以下公式计算得到：

其中，E[·]表示计算数学期望，表示解码器的输出，表示输入为时内容编码器的输出，Z_c表示内容编码器的输出，Z_si表示说话人编码器的输出，表示采用广义端到端的方法提取到的说话人身份信息，i表示说话人序号，x表示网络初始输入语音数据，E_s(x)表示输入为x时说话人编码器的输出，D(E_s(x),Z_c)表示将E_s(x)和Z_c输入解码器后的输出；

所述的实例归一化层的具体处理过程如下：

首先，按下式计算得到语音内容表示的每一个通道的均值：

其中，μ_c表示第c个通道的均值，W表示每个通道的数组维数，M_c[ω]表示第c个通道中的第ω个元素；c＝1,2,…,C，C表示通道数量；

然后，按下式计算每一个通道的方差：

其中，σ_c表示第c个通道的方差，ε表示调节参数，取值范围为(0,1)；

最后，按下式将通道数组M_c中的每个元素进行归一化处理：

其中，M_c′[ω]表示归一化后的第c个通道中的第ω个元素值；c＝1,2,…,C，ω＝1,2,…,W；

步骤3：设置网络参数，包括数据读入的批处理大小Batch size为32，初始学习率为0.001，网络的迭代次数500000次，将步骤1得到的声学特征段集合中的语音段输入到步骤2构建的语音转换网络进行训练，得到训练好的语音转换网络；

步骤4：输入待转换的源语音数据和目标语音数据到步骤3得到的训练好的语音转换网络，利用说话人编码器从目标语音数据中提取说话人特征，利用内容编码器提取源语音数据的语音内容表示，再经解码器和后置网络，输出得到转换后的语音数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】