[发明专利]基于基音同步频谱参数的语音识别系统和方法有效

专利信息
申请号: 201510114134.0 申请日: 2015-03-16
公开(公告)号: CN104934029B 公开(公告)日: 2019-03-29
发明(设计)人: 陈成钧 申请(专利权)人: 纽约市哥伦比亚大学理事会
主分类号: G10L13/08 分类号: G10L13/08;G10L15/04
代理公司: 中国国际贸易促进委员会专利商标事务所 11038 代理人: 刘倜
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明定义了一种基于基音同步的语音识别系统和方法。语音信号首先经过一个确定基音周期标志的程序,来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个处理单元,以对整个的语音信号产生出一组完整的分割点。根据分割点,语音信号被分割成与基音同步的而且互不重叠的帧。一个程序把每一帧的两个端点的数值做成等值。使用傅立叶分析,每个帧中的语音信号被转换为基音同步振幅频谱,然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色的单位矢量,称为音色矢量。这些音色矢量然后与数据库中的音色矢量相比,找到最可能的音素序列。然后可能的音素序列被送到语言解码器,找出最可能的文本。
搜索关键词: 基于 基音 同步 频谱 参数 语音 识别 系统 方法
【主权项】:
1.一种自动语音识别的方法,使用一个或多个处理器,通过以下步骤把语音信号转换成文本:A)把语音信号分割成基音同步帧,其中浊音部分的每个帧是一个基音周期;B)对每一个帧,用端点匹配方法使波形的两端均衡;C)用傅立叶分析生成每个帧的振幅频谱;D)用Laguerre函数把振幅频谱转化成音色矢量;E)进行声学解码,把每个音色矢量与音色矢量数据库进行比较,找到最可能的音素或子音素单元序列;F)进行语言解码,把最可能的音素序列和一个语言模型数据库相比较,找出最可能的文本;其中语音信号的分割是使用非对称窗对语音信号进行分析:a)对于说话者进行测试,找出非对称窗的最佳尺寸;b)把语音信号与该非对称窗进行卷积,形成一个轮廓函数;c)取轮廓函数的最大值所在时间点为分割点;d)把分割点扩展到清音段和无声段。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于纽约市哥伦比亚大学理事会,未经纽约市哥伦比亚大学理事会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510114134.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top