[发明专利]大词汇量连续语音合成方法及终端设备在审
| 申请号: | 201010216313.2 | 申请日: | 2010-07-05 |
| 公开(公告)号: | CN101950559A | 公开(公告)日: | 2011-01-19 |
| 发明(设计)人: | 李华东 | 申请(专利权)人: | 李华东 |
| 主分类号: | G10L13/00 | 分类号: | G10L13/00;G10L13/02;G10L15/06 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 466302 河南*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 词汇量 连续 语音 合成 方法 终端设备 | ||
技术领域
本发明设计一种语音合成技术,特别涉及一种运用于嵌入式设备的大词汇量语音合成方法及设备。
技术背景
目前嵌入式终端设备被人们广泛使用,如手机、GPS导航仪以及个人数字助理等。这些嵌入式终端设备体积小、便于携带。由于体积小,故其显示屏的尺寸也比较小,分辨率较低,无法显示Internet上的大量的以http作为传输协议的文本,只能显示以WAP协议定义的文本,使得许多资源无法被这些终端利用。另一方面有时候需要解放眼睛,比如人们在驾驶汽车时,如果驾驶人员向GPS导航仪上查看信息时,就隐藏着安全隐患。大词汇量语音合成能有效解决上述问题。目前,基于大语料库的语音合成已经应用到计算机上,由于嵌入式设备的资源很有限,基于大语料库的语音合成方法不适应于嵌入式设备。
发明内容
本发明的目的是提供可供嵌入式设备使用的大词汇量连续语音合成方法。
为实现上述发明,首先需要录音,录音时仅录入无调(或一声)音节,这样可以降低对系统存储资源的占用量。然后需要对声韵母进行人工切分。然后使用STRAIGHT算法把韵母分离为声源信息和声道信息(频谱)。合成时通过调整基频可以得到四声俱全的音节。为了使合成的语音具有较高的自然度,还需要对文本进行分词,合成时,词内的音节间没有静音帧,在词与词之间加入一定长度的静音帧,在句子与句子之间加入较长时间的静音帧。
附图说明
图一显示本发明的语音合成原理图
图二显示本发明进行文本分词时采用的搜索树。
实施方式
为了具体地说明本发明的实现方法,下面结合附图对本发明进行详细的说明。
本发明的实现分为训练模块和合成模块两部分。具体的实现平台:硬件采用S3C2440,操作系统采用Linux。
在训练阶段,首先,进行录音,录音时仅录入无调(或一声)音节,录音后需要设计人员对录音进行一些相应的处理,包括对声韵母进行切分,观察这些音节的基音频率。然后设计一个截止频率稍大于上述音节基音频率的低通滤波器或者设计一个上截止频率稍大于上述音节基音频率下截止频率为100Hz的带通滤波器,对韵母进行低通滤波或者带通滤波,则可以准确地找到基音周期,该方法相对于现存的基音检测算法运算量大幅降低。提取出基音周期后,设基音周期为T0,设计一个仅包含两个基音谐波分量的窗函数,设此窗函数的频率响应为H(ω),并且设τ时刻语音信号的短时功率谱为|S(ω,τ)|2,则PT(ω)=|S(ω,τ)|2+|S(ω+τ+T0/2)|2在时间轴上已不具有周期性。设Harr(ω)为截止频率为ω0/2的低通滤波器,通过计算PT(ω)和Harr(ω)的卷积则可消除短时功率谱在频率轴上的周期性,此时得到的谱记为PTST(ω)。令Pc(ω)=PT(ω)/PTST(ω)-1,则Pc(ω)则表示基音轨迹。
在合成阶段,对文本先按照图二所示的搜索树进行分词。对于词,音节与音节之间不插入静音帧,使得词的发音很连贯,在词与词之间加入一定时长的静音帧,而在句子与句子之间加入时常较长的静音帧,这样可以使合成的语音听起来比较自然。合成语音韵母信号y(t)的基本公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于李华东,未经李华东许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010216313.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有接口保护盖的装置
- 下一篇:基于互联网的发货确认方法及系统





