[发明专利]基于基音同步频谱参数的语音识别系统和方法有效
| 申请号: | 201510114134.0 | 申请日: | 2015-03-16 |
| 公开(公告)号: | CN104934029B | 公开(公告)日: | 2019-03-29 |
| 发明(设计)人: | 陈成钧 | 申请(专利权)人: | 纽约市哥伦比亚大学理事会 |
| 主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L15/04 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 刘倜 |
| 地址: | 美国*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 基音 同步 频谱 参数 语音 识别 系统 方法 | ||
本发明定义了一种基于基音同步的语音识别系统和方法。语音信号首先经过一个确定基音周期标志的程序,来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个处理单元,以对整个的语音信号产生出一组完整的分割点。根据分割点,语音信号被分割成与基音同步的而且互不重叠的帧。一个程序把每一帧的两个端点的数值做成等值。使用傅立叶分析,每个帧中的语音信号被转换为基音同步振幅频谱,然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色的单位矢量,称为音色矢量。这些音色矢量然后与数据库中的音色矢量相比,找到最可能的音素序列。然后可能的音素序列被送到语言解码器,找出最可能的文本。
本专利申请是题为“语音合成系统和方法”的美国专利8719030的部分延续。
技术领域
本发明总体上涉及用基音同步频谱参数自动语音识别,特别是基于音色矢量的方法。
背景技术
语音识别是一个把语音信号转换成文本的自动过程,其中有三个步骤。第一步骤,声学处理,把语音信号转换成某种参数。第二步骤是要从语音信号参数化表示中找到最可能的音素序列。第三步是从可能的音素序列和语言模型找到最可能的单词序列。本发明涉及一种新类型的语音信号参数的化表示和把语音信号转换成这种参数化表示的过程。
在目前的语音识别系统中,语音信号首先被乘以一个移动的处理窗,通常为Hamming窗,其持续时间约25毫秒,每次移位大约10毫秒,以形成一个帧,见图2(A)。从每个帧的语音信号产生一组参数。因此,每10毫秒,有一组代表在25毫秒窗口的持续时间的声音信号的参数产生。最广泛使用的参数表示是线性预测系数(LPC)和Mel倒谱系数(MFCC)。这种方法具有的缺陷:首先,处理窗口的位置与基音周期是无关的。因此,基音信息和频谱信息不能清晰地划分开。第二,因为窗口的持续时间大约是位移时间的2.5倍,一个音素边界总是由两个或三个连接的窗口交叉。换句话说,大量的帧包含有音素边界,见图2(A)。
很多年来,人们知道,基音同步的语音信号参数化是更好的方法。首先把语音信号分割成和基音周期同步而且互不重叠的帧,见图2(B)。对于浊音211,每个帧是单个的基音周期,213。对于清音212,帧214是等分的。为方便起见,对于清音,每帧的时间约等于浊音段的平均基音周期。基音同步参数的优点是:首先,一个单一的帧的语音信号只表示该语音的频谱或音色,从音高脱钩。因此,音色信息和基音信息被干净地分开。第二,因为一个音素边界必须是一个浊音和清音之间边界,或是两个基音周期之间的边界,每个帧的音素是独特的。因此,每一组参数都代表独特的音素。语音识别的准确性可以得到改善。(详细内容见Springer Handbook of Speech Processing,Part E,Springer Verlag2008)。
发明内容
本发明定义了一种基音同步的语音信号参数化表示,并公开了从语音信号生成的上述基音同步参数化表示的方法,特别是音色矢量和产生音色矢量的方法。
本发明的示例性的实施方案参见图1。语音信号首先经过一个确定基音周期标志的程序,来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个处理单元,以对整个的语音信号产生出一组完整的分割点。根据所述分割点,语音信号被分割成与基音同步的而且互不重叠的帧。每一个帧的两个端点的数值可能不同。一个程序把每一帧的两个端点的数值做成等值。使用傅立叶分析,每个帧中的语音信号被转换为基音同步振幅频谱,然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色的单位矢量,称为音色矢量。音色矢量的总和构成语音信号的参数化表示。
语音数据库的形成,是通过一个说话人或者一组说话人朗读一组包含目标语言的所有音素的文本,录制而成。然后把语音信号库转换成音色矢量库。每个音色矢量的音素标识由相关的文本来确定。把平均音色矢量和方差与单独的音素配对起来,形成一个语音数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于纽约市哥伦比亚大学理事会,未经纽约市哥伦比亚大学理事会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510114134.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纯银U盘及其制作方法
- 下一篇:一种扫描驱动电路





