[发明专利]一种从源说话人到目标说话人的声音转换方法及装置在审
申请号: | 202010543805.6 | 申请日: | 2020-06-15 |
公开(公告)号: | CN113808595A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 颜蔚 | 申请(专利权)人: | 颜蔚 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18;G10L17/14;G10L25/93 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 224600 江苏省盐城市响*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 目标 声音 转换 方法 装置 | ||
本申请公开了一种源说话人到目标说话人的声音转换方法及装置,该方法包括:在获取源说话人或目标说话人的语音数据后,提取每一语音帧中的浊音所对应的内容特征数据与声学特征数据,存储为说话人的一个特征向量,根据浊音的内容特征数据判断浊音内容,按照浊音内容和说话人类型将所有特征向量分类存储,并利用分类存储后的特征向量得到基于不同浊音的源说话人到目标说话人的声学特征转换参数,然后,接收待转换语音数据,判断每一帧待转换语音中的浊音内容,选取相应的声学转换参数对待转换的语音帧进行多线程并行的语音转换。利用本申请实施例,可以细化浊音的区分并简化声音转换的准备工作,令使用者可以在较短时间内得到品质较高的转换语音。
技术领域
本申请涉及语音信号处理技术领域,具体涉及一种从源说话人到目标说话人的声音转换方法及装置。
背景技术
在日常生活的交流中,我们可以通过一个人的声音判断出这个人是否是我们熟悉的人,这是因为每个人的声音往往是独一无二的,很难找到拥有相同音色的两个人。源说话人到目标说话人声音转换技术可以对源说话人的语音数据进行处理转换,使转换后的语音具有目标说话人的音色特征,而语义内容保持不变。
这种技术拥有广泛的应用前景,例如用于通信安全领域,保证通话的私密性。也可用于舞台表演等实时表演时增加效果,或者解决配音行业的音源不足等问题。
但是,现有的语音转换技术要想得到理想的效果,在获取所需要的语音数据后,往往还需要较长时间的训练与转换,使得语音转换的实时性效果较差。
发明内容
本申请旨在提供一种源说话人到目标说话人的声音转换方法及装置,具体基于语音转换时根据浊音类型的不同进行多线程并行的声学特征转换,使得可以在较短时间内获得精度较高的转换语音。
本申请提供一种源说话人到目标说话人的声音转换方法,包括:
接收源说话人语音数据,并进行分帧预处理;
从所述源说话人语音数据中提取所需特征数据,并输出为基于不同语音帧中浊音的源说话人特征向量;
接收目标说话人语音数据,并进行分帧预处理;
从所述目标说话人语音数据提取所需特征数据,并输出为基于不同语音帧中浊音的目标说话人特征向量;
将所述源说话人特征向量与目标说话人特征向量按照其浊音类型进行分类存储;
利用分类存储后的源说话人和目标说话人特征向量进行训练,得到基于不同浊音的源说话人到目标说话人的声学特征映射参数;
接收源说话人待转换语音数据,并进行分帧处理;
将所有浊音的映射参数输入语音转换模型,按照待转换语音中不同帧包含的浊音类型进行语音转换,得到转换后的目标语音数据。
优选地,所述从所述源说话人语音数据中提取所需特征数据,并输出为基于不同语音帧中浊音的源说话人特征向量,包括:
利用预先构建的内容特征提取模型与声学特征提取模型构建特征提取网络;
提取源说话人语音数据不同帧中的浊音的内容特征数据与声学特征数据;
将同一语音帧中的浊音对应的内容特征与声学特征作为两个元素存储为一个源说话人特征向量。
优选地,所述接收目标说话人语音数据,包括:
向用户提供两种选择,可使用已有的目标说话人特征向量组,或由用户输入目标说话人实时语音数据;
向用户展现可选择的已有目标说话人特征向量组。
优选地,所述从所述目标说话人语音数据提取所需特征数据,并输出为基于不同语音帧中浊音的目标说话人特征向量,包括:
利用预先构建的内容特征提取模型与声学特征提取模型构建特征提取网络;
利用预先构建的声学特征随机波动数据提取模型构建波动数据提取网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于颜蔚,未经颜蔚许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010543805.6/2.html,转载请声明来源钻瓜专利网。