[发明专利]触控辅助的实时语音识别系统及其同步解码方法有效
申请号: | 201210127297.9 | 申请日: | 2012-04-27 |
公开(公告)号: | CN102708862A | 公开(公告)日: | 2012-10-03 |
发明(设计)人: | 俞凯;王欢良 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215123 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 辅助 实时 语音 识别 系统 及其 同步 解码 方法 | ||
技术领域
本发明涉及到语音识别、人机交互和移动计算等技术领域,尤其是一种有限硬件资源下实时的多模态信息辅助的语音识别技术。
背景技术
语音是进行自然人机交互的重要模式之一。语音识别简单说就是机器把语音信号转化为对应文本信息的过程,这些文本信息可进一步用来理解用户意图。当前语音识别技术的性能易受说话人、环境噪声以及信道等因素变化的影响而急剧下降。尤其是在硬件资源有限的应用环境下,复杂的语音识别算法难以实施,其识别性能会进一步下降。
采用其他模式特征来辅助语音识别可以提高语音识别的鲁棒性和识别精度,是促进语音识别技术实用化的重要途径之一。这些辅助特征包括:手写[CN1549244,CN101082836,CN1388434,US2004049388A1]、唇读[CN102023703A]、笔划[CN101377726,CN101488044]、点触[US2004049388A1,WO2008109835A2]等。这些辅助模式特征的应用方式可分为如下几种:
1)在[CN1112252、US2004049388A1]中,系统独立采用两种模式的切换来进行文本的输入,语音和其他模式的识别是独立的,在一次输入中,只能使用其中一种模式特征的识别结果,因此严格说该方法并不能改善语音识别性能。这种方式的主要问题是同一时刻只能使用一种模式特征的识别结果,因此其识别性能并不能提高。
2)在[CN1388434、CN101082836、CN1549244、CN101377726、CN102023703A]中,系统对两种模式分别进行独立的识别,然后通过融合两种识别结果来得到最终的识别结果。其一种融合方法为在两组识别结果中若有完全相同的部分则输出;否则采用的得分最高的部分。另外一种融合方法为首先识别一种模式特征,得到多个候选结果,然后再采用另外一种模式特征在候选结果中进行识别,得到最终结果。这种方式的主要问题是在识别过程中正确结果可能已经被丢弃,那么对识别结果上进行融合是无法找到正确结果的。另外,如果两种模式的识别是顺序的,那么输入速度必然会下降。
3)在[US2004049388A1,WO2008109835A2,CN1918578,CN101315666]中,系统首先采用一种模式特征进行文本输入,然后采用其他模式来修正输入文本中的错误。比较典型的方案是首先采用语音进行输入,对于语音识别结果中的错误单词,再采用手写识别或者点触软键盘来输入,该输入可以利用语音识别结果中的多候选信息。这种方式的主要问题是纠错会导致文本输入速度明显下降。
尤其是,专利[US2004049388A1,WO2008109835A2]公开了基于移动通信设备的语音识别输入技术。其技术特点是利用手写或者点触操作提供的辅助信息来对语音识别的结果进行修正,其手写或点触操作的识别过程和语音识别过程是离线的,不同步的,两者是不相关的。该技术实质上是对语音识别结果的一种后处理,本身并不能改善语音识别精度,也不能提高输入速度。
综上所述,当前其他模态信息辅助的语音识别存在的主要问题是只针对识别结果进行后处理,由此导致:1)计算复杂较高;2)输入速度明显下降;3)识别精度没有显著提高。因此,有必要开发一种在线语音识别过程中可实时利用其它模态信息辅助识别的技术,既可以提高语音识别的精度,又不影响输入速度,尤其是适用于移动通信设备的语音识别技术。
发明内容
本发明公开一种实时利用手指触控动作信息的在线语音识别系统及其同步解码方法。该系统在进行语音识别的过程中,可以同时采集用户手指在触摸屏上的点触和移动动作,然后在语音解码过程中实时利用这些动作信息来在线缩减和修正搜索空间,得到更准确的识别结果,并保持较高的识别速度。其关键特征为用户触控动作信息的使用在时间上和语音识别解码过程基本同步,并直接影响语音识别解码过程。
本发明提供了一种触控辅助的实时语音识别系统,包括:
触控动作检测单元,用于实时检测用户的触控操作,如果有预先定义的触控动作发生,则抽取触控动作特征,该触控动作特征至少包括接触点位置坐标的时间序列,接触开始点时间和结束点时间;
触控动作辨识单元,用于利用所述触控动作检测单元抽取的用户的触控动作特征对用户触控动作进行分类,得到该动作所表示的含义,输出表示该动作含义的特征向量;
语音端点检测单元,用于实时检测语音信号的有效开始点和结束点,进而启动或停止语音特征提取单元;
语音特征提取单元,用于实时提取语音信号的声学特征,该声学特征用于进行语音识别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210127297.9/2.html,转载请声明来源钻瓜专利网。