[发明专利]语音库生成设备及其方法、语音合成系统及其方法有效
申请号: | 201210091240.8 | 申请日: | 2012-03-31 |
公开(公告)号: | CN102779508B | 公开(公告)日: | 2016-11-09 |
发明(设计)人: | 江源;凌震华;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L13/00 | 分类号: | G10L13/00;G06F17/21;G06F17/27;G06F17/30 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 罗松梅 |
地址: | 230088 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 生成 设备 及其 方法 合成 系统 | ||
技术领域
本发明涉及语音合成技术领域,更具体地,涉及一种语音库生成设备及其方法,以及一种语音合成系统及其方法,实现了自动收集预定的语音数据,以及提供特定发音人的合成的语音。
背景技术
实现人机之间人性化、智能化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求。作为语音技术中十分实用的一项重要技术,语音合成技术,或称文语转换技术TTS(Text-To-Speech),将文字信息转化为自然的语音信号,实现任意文本的实时转换。它赋予计算机像人一样自如说话的能力,改变了传统通过录音回放实现机器开口说话的繁琐操作,并节省了系统存储空间,在信息交互日益增多的当今特别是在信息内容需要经常变动的动态查询应用方法中发挥了越来越重要的作用。
计算机技术和数字信号处理技术的发展促成了语音合成技术的发展和实际应用。基于单元挑选的波形拼接语音合成方法由于计算机运算能力和存储容量的提高运用了更大规模的音库及引入更精细的单元挑选策略,在很大幅度上提高了合成语音的音质,音色和自然度。而另一主流语音合成技术,基于隐马尔可夫模型(hidden Markov model,HMM)的参数语音合成方法,也因其更好的鲁棒性能和推广性获得很多研究人员的推崇。作为语音合成系统重要组成部分的音库,其质量如数据规模,精细度,自然度以及准确度等对语音合成系统性能有着重要影响。在基于单元挑选的波形拼接语音合成方法中,系统根据输入文本信息直接从标注好的语音库中挑选合适的单元(音节、音素、状态、帧等)并拼接得到连续语音段。显然当语料库中样本单元数量过少或语境环境单一时,很可能出现挑选不到合适单元的情况,导致合成效果急剧下降;而在基于隐马尔可夫模型(hidden Markov model,HMM)的参数语音合成方法中,系统首先对语音信号进行参数化分解并建立各参数对应的统计模型,随后在合成时利用训练得到的统计模型预测待合成文本的语音参数,并恢复最终的合成语音。当标注音库规模过小或者没有正确标注时,其模型精确度将得不到有效保障,进而造成合成效果的明显下降。
传统合成系统音库的构建需要经过设计、录音、标注等三个阶段。首先在设计阶段,研究人员在收集大量的语料文本后通过考察音素覆盖率人工筛检得到合适的录音语料。随后在录音阶段寻找嗓音良好、发音标准、具有一定播音功底的发音人,在专业录音棚的录制环境下完成所述录音语料的音库录制。最后在标注阶段由专业标注人员对录制的音库语音数据完成文本修订、音段切分、韵律标注等处理。可以看出,传统语音合成系统中音库构建主要依赖人工操作,需要安排专业录音人员选择对韵律和音段进行手工标注,其构建所需工作量较大,制作周期较长,因而音库规模往往受限。另一方面由于音库的录制标注工作对技术专业要求较高,语音合成系统往往只能提供有限特定的若干发音人音色,难以响应多样化的应用需求。总之,构建传统音库需要大量的人力和工作量,且难以适应网络时代定制化和个性化需求的问题。
发明内容
为了解决上述问题,提出了本发明。本发明的目的是提出一种语音库生成设备及语音库生成方法,以及一种语音合成系统和语音合成方法。根据本发明的语音库生成设备可以通过自动收集特定发音人的语音数据生成语音库。由于采用自动收集的方式而无需人工收集特定发音人的语音,语音库规模较大,从而语音合成系统通过采用所述语音库可以提供适用于特定发音人的语音合成,且语音合成系统性能得到了提高。
根据本发明第一方面,提供了一种语音库生成设备,包括:语音提取装置,用于从收集的数据中提取预定发音人的语音数据;语音识别装置,用于将所述预定发音人的语音数据识别为文本;文本标注装置,用于对所述文本进行标注。
根据本发明第二方面,提供了一种语音库生成方法,包括:语音提取步骤,从收集的数据中提取预定发音人的语音数据;语音识别步骤,将所述预定发音人的语音数据识别为文本;文本标注步骤,对所述文本进行标注。
根据本发明第三方面,提供了一种语音合成系统,包括:分词装置,用于对输入的文本进行分词;查找装置,用于根据分词结果查找预定发音人语音库中与文本对应的至少一个预定发音人的语音片段;选择装置,用于从查找的预定发音人的语音片段中选择最优的语音片段;以及合成装置,用于将挑选的语音片段拼接以合成连续的预定发音人的语音序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210091240.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:铁路客运专线支座更换滑移平台
- 下一篇:液控单向阀