[发明专利]一种语音识别方法无效
申请号: | 201210276162.9 | 申请日: | 2012-08-06 |
公开(公告)号: | CN103474062A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 陈奕 | 申请(专利权)人: | 苏州沃通信息科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26;G10L21/02 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 曹毅 |
地址: | 215000 江苏省苏州市工业园*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 | ||
技术领域
本发明具体涉及一种语音识别方法。
背景技术
语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、计算机科学等众多科学紧密相连。语言识别是以基于应用就是语言打字机,用口述代替键盘,实现向计算机输入文字,它具有自然、快速、不需用手、不受地点限制等优点。在英语识别系统中,Google和 Nuance是目前语言识别技术的领跑者,其所开发的商业语言识别引擎被广泛购买使用。目前,还有一些语音识别技术采用京都大学的语音识别引擎,其独特的技术框架具有较好的识别率和扩展性.基于word 3-gram和context-dependent HMM虽然它的性能优秀,但是目前市场上并没有成熟的产品面世。
发明内容
为了解决目前存在的不足,本发明提供了一种适用性强的语音识别方法。
一种语音识别方法,基于word 3-gram和context-dependent HMM,其中语音识别方法包括训练和识别两个部分,训练就是HMM建模的过程,根据一定的参数重估算法,不断调整模型参数,其中,
语音识别包括两种解决方案,为非语音现象合发声变形建立相应的声学模型,或建立描述口语内在随机性语法网络或统计语言模型;
语音采集方式为实时采集:一边进行实时采集一边将已经采集的语音实时送往缓存。
优选的,所述语音识别方法采用具有抗噪特性的特征,并通过麦克风阵列、语音增强和针对噪声的模型补偿方法,去除电话合周围环境噪音等影响。
优选的,所述语音识别方法还包括基于语音识别的人机互动:通过让计算机识别人的语音指令来驱动模型,为游戏引擎提供了语音识别上的软件技术支持,从而在语音上实现对游戏中人物角色的行为进行控制。
与现有技术相比,本发明的优势在于:
本发明的语音识别技术识别率高,扩展性好,这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至是其他语言的识别中。
本发明将语音采集方式改为实时采集:不等说话人说完,就将已经采集的语音实时送往缓存,一边处理一边采集,可以极大提高系统效率。现在语音数据都是先存到硬盘上,在送往识别器进行识别,反应速度慢。
通过自主建立语音库,可以实现即时语音识别,不仅具有对英文识别率高,在日文识别率也处于世界领先地位,尤其是在刚起步的日文语音识别市场,更是国际领先水平。而这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至可以扩展到包括中文的其他国家语言。
附图说明 图1为本发明的一种语音识别方法的流程示意图。
具体实施方式
结合图1所示,本发明的一种语音识别方法,自主研发的语音识别技术所采用的语音识别技术基于京都大学的语音识别引擎,其独特的技术框架具有较好的识别率和扩展性.基于word 3-gram和context-dependent HMM虽然它的性能优秀,但是目前市场上并没有成熟的产品面世。在此之上通过自主建立语音库,可以实现即时语音识别,不仅具有对英文识别率高,在日文识别率也处于世界领先地位,尤其是在刚起步的日文语音识别市场,更是国际领先水平。而这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至可以扩展到包括中文的其他国家语言。
从图1可以看出,语音识别系统要经过训练和识别两个部分,训练就是HMM建模的过程,根据一定的参数重估算法,不断调整模型参数,得到性能较好的模型,通过对基本模型的改进和优化,提高模型的精确度,以到达较好的识别效果。
创新技术点:
(1)自然口语语音识别
在实际的使用环境中,更多、更自然的人机交互式是“自然口语”,本技术对口语识别提出两种解决方案:①为非语音现象合发声变形建立相应的声学模型;②建立描述口语内在随机性语法网络或统计语言模型。
(2)采用具有抗噪特性的特征,麦克风阵列、语音增强和针对噪声的模型补偿方法,去除电话合周围环境噪音等影响
(3)语音识别技术识别率高,扩展性好,这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至是其他语言的识别中。
(4)改进了基于特征的弹性图区配语音算法
证明改进算法识别率高、实时性好,在给出0dB,2dB,8dB,12dB, 15dB信号比下,仍能准确的检测出端点结果。
(5)基于语音识别的人机互动
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州沃通信息科技有限公司,未经苏州沃通信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210276162.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种声音传输装置
- 下一篇:二自由度汽车轮毂打磨机