[发明专利]一种建立语音转换模型的方法、语音转换的方法及系统无效
申请号: | 201110297068.7 | 申请日: | 2011-09-30 |
公开(公告)号: | CN103035251A | 公开(公告)日: | 2013-04-10 |
发明(设计)人: | 杨晨;蔡莲红;周卫 | 申请(专利权)人: | 西门子公司 |
主分类号: | G10L21/003 | 分类号: | G10L21/003 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 李慧 |
地址: | 德国*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 建立 语音 转换 模型 方法 系统 | ||
技术领域
本发明涉及利用计算机实现不同语音转换的技术,特别涉及一种建立语音转换模型的方法以及实现第一语言与第二语言之间语音转换的方法及系统。
背景技术
目前,从中国普通话到方言之间的转换有两种实现方式。第一种常用的转换方式是完全的人工转换,这就是说,如果想把普通话语音转换成相应的方言语音,需要知道普通话语音的内容,再将用方言读出的所述语音内容的每个句子录制下来。由于普通话语音内容的多少是没有限制的,这就导致转换工作既费时又费力。
第二种是利用计算机的语音合成技术来实现,典型的如申请号为200610038587.0的中国专利申请就公开了一种在方言语音合成系统中进行文本方言化处理的方法。该方法首先建立普通话与目标方言之间的同意翻译的方言化规则,然后根据该规则,将输入方言语音合成系统的普通话文本转换为方言文本,再将方言文本输入到语音合成模块,由语音合成模块将方言文本转换为方言语音输出。该方法在刚开始方言化规则建立阶段,需要对所有的方言和普通话建立标注句库,这等于新建了一个文本语音系统,因此也很费时。
虽然,第二种实现方式比第一种实现方式提高了适应性,能够将任意的普通话文本转换为方言语音,但是,第二种方式一个明显的问题就是由语音合成系统转换的方言语音是固定的音质,再有就是只能将普通话文本转换为方言语音,而不能实现普通话语音与方言语音之间的实时转换。
发明内容
有鉴于此,本发明提供了一种建立语言转换模型的方法以及实现第一语言与第二语言之间的语音转换方法及系统,应用该方法及系统能够实现第一语言语音与第二语言语音之间的实时转换,且能够基本保持输入语音和经转换后输出语音音质的一致性。
本发明的实施例提供的建立语言转换模型的方法包括:建立存储第一语言语音和针对同一文本的第二语言语音的语音数据库;对语音数据库中存储的第一语言语音进行语音切分得到第一语言音节,并对针对同一文本的第二语言语音进行语音切分得到第二语言音节;记录通过语音切分得到的各个第一语言音节和各个第二语言音节的音节时长参数;分别提取通过语音切分得到的各个第一语言音节和各个第二语言音节的基频参数;以及根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型。
上述根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型包括:根据各个第一语言音节和各个第二语言音节的基频参数,建立第一语言和第二语言之间的基频转换模型;以及分别统计第一语言音节以及第二语言音节的音节时长参数,并根据音节时长参数的统计结果建立第一语言和第二语言之间的时长转换模型。
上述基频参数包括:每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息;其中,建立第一语言和第二语言之间的基频转换模型包括:分别根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数,其中,基频曲线特征参数包括:基频的均值特征参数、基频开始位置以及四个调型特征参数,其中,所述四个调型特征参数为用三次多项式Ax3+Bx2+Cx+D=y拟合第一语言音节或第二语言音节的基频曲线获得的三次多项式的四个系数;应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类,得到至少一个第一基频曲线类别;分别根据各个第二语言音节的基频参数确定各个第二语言音节的基频曲线特征参数,应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类,得到至少一个第二基频曲线类别;其中,第一基频曲线类别和第二基频曲线类别一一对应;针对每一对一一对应的第一基频曲线类别和第二基频曲线类别,建立属于该第一基频曲线类别的第一语言音节的基频曲线特征参数与属于该第二基频曲线类别的第二语言音节的基频曲线特征参数之间的对应关系。
特别地,应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类包括:为各个第一语音音节的基频曲线特征参数设置相同或不同的权重,并应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类;以及应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类包括:为各个第二语音音节的基频曲线特征参数设置相同或不同的权重,并应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西门子公司,未经西门子公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110297068.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水包车车架
- 下一篇:基于虚拟时间采样与WVD变换的空中机动目标检测方法