[发明专利]一种实现声音转换的方法及系统有效
申请号: | 201410182517.7 | 申请日: | 2014-04-30 |
公开(公告)号: | CN105023570B | 公开(公告)日: | 2018-11-27 |
发明(设计)人: | 陈凌辉;江源;凌震华;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L15/02 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 王立民;吉海莲 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 频谱包络特征 转换 声音转换 语音信号 基频 语音合成技术 变换模型 目标发音 频谱包络 特征生成 获取源 构建 音质 发音 语音 | ||
本发明涉及语音合成技术领域,公开了一种实现声音转换的方法及系统,该方法包括:获取源发音人的语音信号;提取所述语音信号的频谱包络特征和基频特征;根据预先构建的频谱包络变换模型对所述频谱包络特征进行转换,得到转换后的频谱包络特征;根据转换后的频谱包络特征和基频特征生成目标发音人的语音信号。利用本发明,可以有效提高转换语音的音质。
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种实现声音转换的方法及系统。
背景技术
声音转换即将一个发音人(源发音人)的语音转换为另一个发音人(目标发音人)的语音,使其具有目标发音人的发音特点。声音转换技术在实际生活中有广泛应用,可以帮助因发音器官受损而植入电子喉的病人发出高质量的语音,还可以丰富娱乐生活,通过模拟明星发音人的发音特点提高娱乐性等,具有广泛的应用前景。
现有声音转换系统主要采用频谱变换和基频变换的方法,对源发音人的语音特征进行转换,使其具有目标发音人的发音特点,实现声音转换。相比于基频变换,由于频谱对于发音人身份信息的确认作用更加关键,因而基于基频和频谱变换的声音转换更为实用。
现有的频谱变换技术主要采用数学统计模型训练源发音人和目标发音人的频谱特征的联合概率分布,确定源发音人和目标发音人的频谱变换关系。在接收到源发音人语音时,根据所述联合概率分布计算目标发音人特征的条件分布,并生成目标发音人特征样本。在数据统计方法中,训练数据越多,模型越准确,则模拟效果越好。然而由于应用场景的限制,能够获取的训练数据量往往较少,其应用模型往往较为简单,相应的转换得到的语音质量往往不高。
发明内容
本发明实施例提供一种实现声音转换的方法及系统,以提高转换语音的音质。
为此,本发明实施例提供如下技术方案:
一种实现声音转换的方法,包括:
获取源发音人的语音信号;
提取所述语音信号的频谱包络特征和基频特征;
根据预先构建的频谱包络变换模型对所述频谱包络特征进行转换,得到转换后的频谱包络特征;
根据转换后的频谱包络特征和转换后的基频特征生成目标发音人的语音信号。
优选地,所述提取所述语音信号的频谱包络特征包括:
对于每一帧语音帧,提取其上下多帧的频谱包络特征作为所述语音帧的频谱包络特征。
优选地,按以下方式构建频谱包络变换模型:
获取训练语音数据,所述训练语音数据包括源发音人语音数据及目标发音人语音数据;
提取所述训练语音数据的频谱包络特征;
确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系;
确定源发音人和目标发音人的频谱包络变换模型拓扑结构;
根据所述对应关系训练所述源发音人和目标发音人的频谱包络变换模型参数。
优选地,所述确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系包括:
以语音帧为单位,提取所述训练语音信号的美尔倒谱特征序列;
将源发音人的美尔倒谱特征序列与目标发音人的美尔倒谱特征序列对齐;
根据所述源发音人的美尔倒谱特征序列与目标发音人的美尔倒谱特征序列的对应关系,确定源发音人的频谱包络特征与目标发音人的频谱包络特征的对应关系。
优选地,所述确定源发音人和目标发音人的频谱包络变换模型拓扑结构包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410182517.7/2.html,转载请声明来源钻瓜专利网。