[发明专利]基于语音基元的语音编码与合成方法及系统有效

申请号：	200910096638.9	申请日：	2009-03-12
公开（公告）号：	CN101510424A	公开（公告）日：	2009-08-19
发明（设计）人：	孟智平;郭海锋	申请（专利权）人：	孟智平
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/08;G10L19/14
代理公司：	暂无信息	代理人：	暂无信息
地址：	646006四川省泸州***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语音编码合成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种生成语音基元模型库的方法，其特征在于，包括以下步骤：

获取语音流样本数据，并对所述语音流样本数据进行切分，以获取由不同音素或不同波形为单位所构成的语料库，其中，构成所述语料库的基本单元称为语音基元；

提取所述语音基元的特征，构成特征向量；

对所述语音基元的特征向量样本进行模糊聚类，将所有数据样本分为N类，得到对应的聚类中心和隶属度函数；

分析各类语音基元的特征，进而确定拟建语音基元模型库所需的基本语音基元；

对各类语音基元的语音特性进行分析处理，以获得每一类语音基元的频谱包络特征，并将所述频谱包络特征存储于语音基元模型库中，构成语音基元模型库；

其中，

所述对语音流样本数据进行切分为：以音素或者帧为单位，对连续语音流进行切分；

所述以音素为单位进行切分是指采用音素自动切分算法，将连续的语音流自动地切分成由不同的音素所构成的音素集合；

所述以帧为单位进行切分是指以某一时间帧为单位，将连续的语音流切分成由不同波形所构成的波形集合；

所述语音基元模型库是指构成可理解的语音流所需的最小的音素样本库或最小的语音波形样本库；

所述音素自动切分算法包括：

将获得的连续语音流自动切分成以音节为单位的音节序列；

对每一个音节进一步分析音素的构成；

如果该音节为单个音素构成，则将所述音节切分为对应的音素；

如果该音节为多个音素构成，则对所述音节进一步细致切分，最终切分成几个独立的单个音素；

采用AMDF、SHS基频提取算法中的任何一种，提取每个音素基频F0；

采用Mel频率倒谱系数MFCC作为语音信号特征参数，提取每个音素的频谱包络；

采用隐马尔可夫模型对语音特征参数样本集进行训练、识别，最终确定模型中的相关参数，训练测试后的隐马尔可夫模型，用于对连续语音流中所包含的音素进行自动切分；

所述切分语音流获取不同波形的方法包括：

以相同时间帧为切分点，对连续语音流的波形进行切分，获取等时间帧情况下不同的波形集合；

以不同的时间帧为切分点，对连续语音流的波形进行切分，获取不同时间帧情况下的不同波形集合；

采用AMDF、SHS基频提取算法中的任何一种，提取切分后每一段波形的语音基频F0；

采用Mel频率倒谱系数MFCC作为语音信号特征参数，提取每段波形的频谱包络。

2.如权利要求1所述生成语音基元模型库的方法，其特征在于，生成语音基元模型库的过程还包括以下步骤：

采用模糊聚类的方法对音素集合或波形集合进行聚类分析，将音素或波形划分为N类；

对每一类音素或波形的语音特征进行分析，以聚类中心点或其他点的相应组合为对象，替代该类音素或波形，即同一类音素或波形中抽取出一个音素或一个波形以代表该类，最终抽取出N个音素或N 个波形；

确定取出的N个音素或N个波形的基频F0和频谱包络；

将上述N个音素或N个波形赋予其相应的编号，以编号为顺序将N个音素或N个波形的相关信息进行存储，以构成语音基元模型库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于孟智平，未经孟智平许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910096638.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载