[发明专利]韵律图样产生装置、语音合成装置及其方法无效
申请号: | 200810086934.6 | 申请日: | 2008-03-28 |
公开(公告)号: | CN101276584A | 公开(公告)日: | 2008-10-01 |
发明(设计)人: | 益子贵史;赤岭政巳 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/02 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 杨晓光;李峥 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 韵律 图样 产生 装置 语音 合成 及其 方法 | ||
技术领域
本发明涉及韵律图样(prosody-pattern)产生装置、语音合成装置及其方法。
背景技术
将用于语音识别的隐马尔可夫模型(HMM)应用到从文本合成语音的语音合成技术的技术已经受到关注。具体地,通过使用作为一种HMM的韵律模型产生定义语音特征的韵律图样(基本频率图样和音素持续时间图样)来合成语音(例如,参见非专利文献1:T.Yoshimura,K.Tokuda,T.Masuko,T.Kobayashi和T.Kitamura在1999年9月的Proc.EUROSPEECH’99的第2347-2350页的“Simultaneous modeling ofspectrum,pitch and duration in HMM-based speech synthesis”)。
利用通过使用HMM本身来输出语音参数进而合成语音的语音合成技术,可以容易地实现各种说话者的各种语音风格。
除了上述的基于HMM的基本频率图样的产生,还提出了一种技术,利用该技术,通过考虑整个句子的基本频率分布来产生图样,可以提高基本频率图样的自然度(例如,参见非专利文献2:T.Toda和K.Tokuda在2005年9月的Proc.INTERSPEECH 2005的第2801-2804页的“Speechparameter generation algorithm considering global variance forHMM-based speech synthesis”)。
但是,在非专利文献2提出的技术中存在一个问题。由于通过重复使用一些算法来搜索最佳参数串,因此在产生基本频率图样的时候,计算量会增加。
此外,由于非专利文献2的技术利用了整个文本句子的基本频率的分布,因此,不能顺序地为句子的每个片段或相似物产生图样。因此,存在整个文本的基本频率图样不完成就不能输出语音的问题。
发明内容
根据本发明一个方面,一种韵律图样产生装置包括:初始韵律图样产生单元,该单元基于语言信息和韵律模型产生初始韵律图样,所述韵律模型是通过以构成语音数据的音素、音节和单词为单位对韵律信息进行建模而获得的;归一化参数产生单元,该单元分别产生初始韵律图样的平均值和标准偏差以及包括在语音文集中的训练句子的韵律图样的平均值和标准偏差作为归一化参数;归一化参数存储单元,该单元存储归一化参数;以及韵律图样归一化单元,该单元根据所述归一化参数对初始韵律图样的变化范围或变化宽度进行归一化。
根据本发明另一方面,一种语音合成装置包括:韵律模型存储单元,该单元存储韵律模型,在该韵律模型中韵律信息以构成语音数据的音素、音节和单词为单位被建模;文本分析单元,该单元分析输入到其中的文本,并输出语言信息;根据权利要求1的韵律图样产生装置,该装置通过使用韵律模型根据所述语言信息来产生指示语音方式的特征的韵律图样;以及语音合成单元,该单元通过使用该韵律图样来合成语音。
根据本发明又一方面,一种韵律图样产生方法包括:基于语言信息和韵律模型产生初始韵律图样,所述韵律模型是通过以构成语音数据的音素、音节和单词为单位对韵律信息进行建模而获得的;分别产生初始韵律图样的平均值和标准偏差以及包括在语音文集中的训练句子的韵律图样的平均值和标准偏差作为归一化参数;将归一化参数存储在存储单元中;以及根据所述归一化参数对初始韵律图样的变化范围或变化宽度进行归一化。
附图说明
图1是根据本发明一个实施例的语音合成装置的硬件结构的框图;
图2是所述语音合成装置的功能结构的框图;
图3是示出HMM的一个示例的示意图;
图4是韵律图样产生单元的功能结构的框图;以及
图5是产生归一化参数的过程的流程图。
具体实施方案
以下参照附图解释本发明所述的韵律图样产生装置、语音合成装置及其方法的示例性实施例。
现在参照图1-5解释本发明的一个实施例。图1是根据本发明实施例的语音合成装置1的硬件结构的框图。基本地,根据本实施例的语音合成装置1被配置为使用隐马尔可夫模型(HMM)执行语音合成处理,以从文本中合成语音。
如图1所示,语音合成装置1可以是个人计算机,该个人计算机包括中央处理单元(CPU)2,CPU 2用作计算机的主要部件并处于中心地位以控制计算机的其他单元。存储BIOS和类似内容的只读存储器(ROM)3和以可重写方式存储各种数据的随机访问存储器(RAM)4通过总线5被连接到CPU 2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810086934.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:导线大电流冲击试验方法
- 下一篇:一种智能存储卡的控制方法