[发明专利]基于基音同步频谱参数的语音识别系统和方法有效

申请号：	201510114134.0	申请日：	2015-03-16
公开（公告）号：	CN104934029B	公开（公告）日：	2019-03-29
发明（设计）人：	陈成钧	申请（专利权）人：	纽约市哥伦比亚大学理事会
主分类号：	G10L13/08	分类号：	G10L13/08;G10L15/04
代理公司：	中国国际贸易促进委员会专利商标事务所 11038	代理人：	刘倜
地址：	美国***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明定义了一种基于基音同步的语音识别系统和方法。语音信号首先经过一个确定基音周期标志的程序，来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个处理单元，以对整个的语音信号产生出一组完整的分割点。根据分割点，语音信号被分割成与基音同步的而且互不重叠的帧。一个程序把每一帧的两个端点的数值做成等值。使用傅立叶分析，每个帧中的语音信号被转换为基音同步振幅频谱，然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色的单位矢量，称为音色矢量。这些音色矢量然后与数据库中的音色矢量相比，找到最可能的音素序列。然后可能的音素序列被送到语言解码器，找出最可能的文本。
搜索关键词：	基于基音同步频谱参数语音识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种自动语音识别的方法，使用一个或多个处理器，通过以下步骤把语音信号转换成文本：A)把语音信号分割成基音同步帧，其中浊音部分的每个帧是一个基音周期；B)对每一个帧，用端点匹配方法使波形的两端均衡；C)用傅立叶分析生成每个帧的振幅频谱；D)用Laguerre函数把振幅频谱转化成音色矢量；E)进行声学解码，把每个音色矢量与音色矢量数据库进行比较，找到最可能的音素或子音素单元序列；F)进行语言解码，把最可能的音素序列和一个语言模型数据库相比较，找出最可能的文本；其中语音信号的分割是使用非对称窗对语音信号进行分析：a)对于说话者进行测试，找出非对称窗的最佳尺寸；b)把语音信号与该非对称窗进行卷积，形成一个轮廓函数；c)取轮廓函数的最大值所在时间点为分割点；d)把分割点扩展到清音段和无声段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于纽约市哥伦比亚大学理事会，未经纽约市哥伦比亚大学理事会许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510114134.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于基音同步频谱参数的语音识别系统和方法有效

专利文献下载