[发明专利]一种基于频谱包络和基音周期的男女语音转换方法在审
申请号: | 201711455053.2 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108417198A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 陈明义;杨婧 | 申请(专利权)人: | 中南大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L25/30;G10L25/18;G10L25/03 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基音周期 频谱包络 语音转换 个性化语音 男性 语音 预处理 模型输出参数 参数输入 合成目标 合成问题 男女性别 匹配模型 语音合成 语音训练 转换模型 女性 合成 说话 | ||
本发明提供一种基于频谱包络和基音周期的男女语音转换方法,主要解决个性化语音合成问题。包括:首先进行男女语音训练,对男性和女性语音进行预处理,然后提取其频谱包络和基音周期参数,建立匹配模型;其次再进行男女语音转换,将男性/女性的频谱包络和基音周期参数输入到转换模型中,并将模型输出参数用到语音合成中,来合成目标性别语音。本发明采用的方法在相同说话内容的情况下,能够实现男女性别之间的语音转换,实现个性化语音的合成。
技术领域
本发明属于音频信号处理领域,涉及一种基于频谱包络和基音周期的男女语音转换方法。
背景技术
随着人工智能技术的发展,人类的生活日益丰富,听演唱会,玩手机游戏和虚拟现实逐渐成为大众喜欢的娱乐方式,人们为了得到更好的听觉体验,对语音的要求也越来越高。科技的快速发展,使得音频行业与人类生活紧密地结合在一起,其中语音转换技术发挥着重要作用,现在语音在日常生活中有着广泛的使用,例如手机语音助手、智能家庭机器人、智能声控开关等。随着人类对语音的要求越来越高,语音转换技术显得越来越重要,应用也越来越普遍。在娱乐领域里电影、电视节目的配音中,可以将源演员的声音特征加入到本地化电影配音中,让配音更原汁原味;在卡拉OK等数字化娱乐中,加入可调比重的原唱者声音特征,改善听觉效果;在医疗领域里,声音转换技术可以恢复受损语音,帮助声道受损的病人提高声音的可懂性;在军事国防领域里,语音转换技术可以在通信中对说话人语音进行个性化伪装。
语音转化有着重要的理论价值和应用价值,大致分为三种方法:参数法、非参数法和混合法。参数法主要采用分析合成技术,根据语音信号的产生模型,分离语音信号的声源信息和声道信息,提取特征参数,将这些参数进行转换,合成新的语音。非参数法采用全局最优的方法进行转换,不明显的提取语音特征参数,根据统计意义上的数据进行转换,在一定程度上改变语音的个性特征。混合法仅提取语音信号的特征,对其余参数采用全局最优的方法,进行大致的转换。不管采用哪一种方法,都是获取声源和声道参数,让源语音与目标语音能够最优匹配。
发明内容
本发明提出了一种基于频谱包络和基音周期的男女语音转换方案,可以解决个性化语音合成问题,例如在为电影配音时,有时很难找到需要配音的演员,可以通过男女语音转换技术合成所需要的配音效果,以节省电影耗时以及成本问题。
为了达到上述目的,本发明的方法包括为:
S1:男女语音训练阶段,先对男性和女性语音进行预处理,然后提取其频谱包络参数和基音周期,建立转换模型;
S2:男女语音转换阶段,将男性/女性语音的频谱包络参数和基音周期输入转换模型中,将模型输出参数进行语音合成,合成目标性别语音。
进一步,所述步骤S1中,所述的预处理是指设置一系列参数,对语音进行分帧加窗预处理。参数包括:帧长、帧移、窗函数,LSP系数的阶数。
其中,所述帧长,是指经过数字化的音频信号实际上是一个时变信号,为了能对音频信号进行分析,可以假设音频信号在几十毫秒的时间内是平稳的。为了得到短时音频信号,将语音信号分为一段一段地来分析其特征,其中每一段称为“一帧”,分帧是连续的,帧长一般取10~30毫秒,此时方案将分帧定为20 毫秒。
其中,所述帧移,是指后一帧对前一帧的位移量,这样相邻两帧之间存在重叠部分。在分帧处理中,往往设置在相邻两帧之间有一部分重叠,如果相邻两帧之间不重叠,给出的基音可能有一个跳变,特征参数有可能变化较大,为了使特征参数平滑地变化,在两个不重叠的帧之间插一些帧来提取特征参数,此时方案的帧移为5毫秒。
其中,所述窗函数,是指为了减少频谱能量泄漏,可采用不同的截取函数对信号进行截断,截断函数称为窗函数。不同的窗函数对信号频谱的影响不一样,可根据信号的性质和处理要求选择不同的窗函数。如果分析窄带信号,且有较强的干扰噪声,则应选用旁瓣幅度小的窗函数,如汉宁窗、三角窗等;对于随时间按指数衰减的函数,可采用指数窗来提高信噪比。此时方案将窗函数定为海明窗。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711455053.2/2.html,转载请声明来源钻瓜专利网。