[发明专利]一种语音识别方法和装置有效
申请号: | 201310231499.2 | 申请日: | 2013-06-09 |
公开(公告)号: | CN103337241A | 公开(公告)日: | 2013-10-02 |
发明(设计)人: | 苏牧;李鹏;李轶杰;梁家恩 | 申请(专利权)人: | 北京云知声信息技术有限公司 |
主分类号: | G10L15/10 | 分类号: | G10L15/10;G10L15/26 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100083 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 | ||
技术领域
本发明涉及语音识别领域,特别是涉及一种语音识别方法和装置。
背景技术
目前,在智能手机或者说移动终端上通过语音进行输入和控制越来越被用户所熟悉和接受,而且随着移动终端硬件更新速度越来越快,高速CPU和大容量内存已经成为了大部分移动终端的基础配置,使得几万量级词汇量的嵌入式的语音识别技术应用在移动终端上成为可能,比如说,针对固定人名、地名或App应用名称等固定词汇量的语音识别就是属于此类,一般来说,对于应用在移动终端中的万级词汇量的语音识别系统,其本地识别的识别标准是根据最大似然原则,即是指将接收到的语音片段计算出对应的语音特征值,与语音词汇库中的已存的每个词汇对应的模型进行比较,找到语音特征值相似度最大的,判定接收到的语音片段即为该语音特征值相似度最大的已存词汇并执行对应的操作,或者举一个比较直观的例子,当用户说出“张三”,但是本地语音词汇库中并没有存有“张三”的词汇,当使用最大似然原则进行判断后,找出词汇库中的“李四”与用户说出的“张三”的语音特征值相似度最大,然后根据词汇“李四”做出了相应的操作比如说拨通了李四的电话,即便用户所说的语音根本不是“李四”,由此对用户的语音输入进行了误操作。由此可见,基于现有技术的语音识别,没有办法对词汇库中已存词汇以外的输入语音进行有效拒识,由此导致在用户语音操作中移动终端会常做出错误的反馈。
发明内容
为了解决上述移动终端的本地语音识别技术无法对输入的语音片段进行拒识的技术问题,本发明提供了一种语音识别方法和装置。
本发明实施例公开了如下技术方案:
由上述技术方案可以看出,将输入的语音片段的每一帧的最高声学得分之和,也就是一个只是理论上存在的完美匹配的声学总分作为评价依据,与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分进行比较,将比较后差值较大的判定为错误的语音输入并进行拒识,由此大大降低移动终端根据语音输入做出误操作的频率,其次,使用聚类操作以近似计算的方法获取输入的语音片段的每一帧的最高声学得分之和,使得本技术方案的拒识方法在移动终端上的运行速度得到保证,提高了用户的体验度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种语音识别方法的方法流程图;
图2为本发明的系统框架图;
图3为本发明一种语音识别装置的装置结构图;
图4为本发明的计算背景声学总分的装置结构图。
具体实施方式
本发明实施例提供了一种语音识别方法和装置。首先,将输入的语音片段的每一帧的最高声学得分之和,也就是一个只是理论上存在的完美匹配的声学总分作为评价依据,与输入的语音片段和移动终端词汇库中的词汇比较得出的最高声学总分进行比较,将比较后差值较大的判定为错误的语音输入并进行拒识,由此大大降低移动终端根据语音输入做出误操作的频率。
其次,使用聚类操作以近似计算的方法获取输入的语音片段的每一帧的最高声学得分之和,使得本技术方案的拒识方法在移动终端上的运行速度得到保证,提高了用户的体验度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例进行详细描述。
实施例一
请参阅图1,其为本发明一种语音识别方法的方法流程图,该方法包括以下步骤:
S101:接收输入的语音片段;
需要说明的是,本发明技术方案主要应用于移动终端上,也就是说是移动终端接收外接输入的声音片段,可以是用户说出的,也可以是机器播放的等。
S102:根据子空间分布聚类SDC计算所述语音片段每一帧的多个声学得分;
这种SDC算法属于本技术领域的常用计算声学得分的手段,在主流的语音识别系统中,通常采用状态共享三音子(state-tied triphone)作为发音单元,用HMM对其时序及统计特性进行建模,而HMM的每个状态的输出概率用高斯混合模型(GMM)表示,传统的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云知声信息技术有限公司,未经北京云知声信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310231499.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:LED供电电路
- 下一篇:介入诊疗床边活动隔离墙装置