[发明专利]语音合成设备有效
申请号: | 201210179123.7 | 申请日: | 2012-06-01 |
公开(公告)号: | CN102810310A | 公开(公告)日: | 2012-12-05 |
发明(设计)人: | 才野庆二郎 | 申请(专利权)人: | 雅马哈株式会社 |
主分类号: | G10L13/04 | 分类号: | G10L13/04 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 陈源;张天舒 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 设备 | ||
1.一种用于使用多个语音段数据合成语音信号的设备,每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段,所述设备包括:
语音段调整部分,其根据第一语音段和第二语音段来形成目标片段以便将第一语音段和第二语音段相互连接,使得所述目标片段由与辅音音素对应的第一语音段的后部音素片段和与所述辅音音素对应的第二语音段的前部音素片段形成,并且所述语音段调整部分执行用于将所述目标片段扩展到目标时间长度以形成调整片段的扩展处理,使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分,从而产生具有所述目标时间长度并且与所述辅音音素对应的调整片段的合成语音段数据;以及
语音合成部分,其根据由所述语音段调整部分产生的合成语音段数据来产生语音信号。
2.根据权利要求1的设备,
其中每个语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据,并且
其中,在所述目标片段对应于浊辅音音素的情况下,所述语音段调整部分将所述目标片段扩展成所述调整片段,使得所述调整片段包含与所述目标片段的前部分对应的单位数据的时间序列、通过对与所述目标片段的中心点对应的单位数据进行重复而得到的多个重复单位数据的时间序列、以及与所述目标片段的后部分对应的多个单位数据的时间序列。
3.根据权利要求2的设备,
其中所述浊辅音音素的帧的单位数据包括对语音频谱的包络线中的形状的特性进行指示的包络数据和对该语音的频谱进行表示的频谱数据,并且
其中所述语音段调整部分产生与所述目标片段的中心点对应的单位数据,使得产生的单位数据包括通过对所述目标片段的中心点前后的单位数据的包络数据进行内插而得到的包络数据以及恰在该中心点前后的单位数据的频谱数据。
4.根据权利要求1的设备,
其中所述语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据,
其中在所述目标片段对应于清辅音音素的情况下,所述语音段调整部分顺序地选择所述目标片段的每个帧的单位数据来作为所述调整片段的每个帧的单位数据,以产生合成语音段数据,并且
其中随着所述调整片段中的时间流逝对所述目标片段中与所述调整片段中的每个帧对应的每个帧进行改变所采用的速度从所述调整片段的前部分到中心点是减小的,而从所述调整片段的中心点到后部分是增大的。
5.根据权利要求4的设备,
其中清音的帧的单位数据包括了表示清音频谱的频谱数据,并且
其中所述语音段调整部分产生所述调整片段的帧的单位数据,使得所产生的单位数据包括了含有预定噪声成分的频谱的频谱数据,其中根据由所述目标片段中的帧的单位数据的频谱数据所表示的频谱的包络线对所述预定噪声成分进行了调整。
6.根据权利要求1的设备,其中所述语音段调整部分在所述目标片段的辅音音素属于包括摩擦音和半元音的一种类型的情况下执行所述扩展处理,并且在所述目标片段的辅音音素属于包括爆破音、塞擦音、鼻音和流音的另一种类型的情况下执行另一扩展处理,所述另一扩展处理用于在所述目标片段中的第一语音段的后部音素片段与第二语音段的前部音素片段之间插入中间片段。
7.根据权利要求6的设备,其中在所述目标片段的辅音音素是爆破音或塞擦音的情况下,所述语音段调整部分在第一语音段的后部音素片段与第二语音段的前部音素片段之间插入无声片段来作为中间片段。
8.根据权利要求6的设备,其中在所述目标片段的辅音音素是鼻音或流音的情况下,所述语音段调整部分插入包含了对从第一语音段的后部音素片段或第二语音段的前部音素片段中选择的一个帧进行的重复的中间片段。
9.根据权利要求8的设备,其中所述语音段调整部分插入包含了对第一语音段的后部音素的最后帧进行的重复的中间片段。
10.根据权利要求8的设备,其中所述语音段调整部分插入包含了对第二语音段的前部音素片段的最前帧进行的重复的中间片段。
11.一种使用多个语音段数据合成语音信号的方法,每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段,所述方法包括:
根据第一语音段和第二语音段来形成目标片段以便将第一语音段和第二语音段相互连接,使得所述目标片段由与辅音音素对应的第一语音段的后部音素片段和与所述辅音音素对应的第二语音段的前部音素片段形成;
执行用于将所述目标片段扩展到目标时间长度以形成调整片段的扩展处理,使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分,从而产生具有所述目标时间长度并且与所述辅音音素对应的调整片段的合成语音段数据;以及
根据所述合成语音段数据来产生语音信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雅马哈株式会社,未经雅马哈株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210179123.7/1.html,转载请声明来源钻瓜专利网。