[发明专利]使用具有词历史的实时词网格生成的自动语音识别的系统和方法有效
申请号: | 201580047908.0 | 申请日: | 2015-09-09 |
公开(公告)号: | CN106663423B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | J·奥费;G·施特默尔 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08 |
代理公司: | 北京尚诚知识产权代理有限公司 11322 | 代理人: | 龙淳 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 具有 历史 实时 网格 生成 自动 语音 识别 系统 方法 | ||
本发明涉及使用具有词历史的实时词网格生成的自动语音识别的系统、制品和方法。
相关申请
本申请要求2014年10月6日提交的题为“SYSTEM AND METHOD OF AUTOMATICSPEECH RECOGNITION USING ON-THE-FLY WORD LATTICE GENERATION WITH WORDHISTORIES(使用具有词历史的实时词网格生成的自动语音识别的系统和方法)”的美国专利申请No.14/506,844的权益。
背景技术
随着越来越多的基于计算机的设备使用语音识别来接收来自用户的命令以便执行某些动作,以及将语音转换为文本用于听写应用或者甚至在一个或两个方向上交换信息的情况下保持与用户的对话,语音识别系统或自动语音识别器(ASR)变得越来越重要。这样的系统可以是取决于说话者的,其中通过使用户重复词来训练系统,或不取决于说话者的,其中任何人都可以提供立即识别的词。一些系统还可以经配置理解一组固定的单个词命令,例如用于操作理解术语呼叫或应答的移动电话,或者例如用于简单数据输入电话呼叫。其他ASR使用自然语言理解(NLU)模块,该自然语言理解(NLU)模块理解语法和词的定义以从话语(所说的词或句子)的上下文识别词以用于更复杂的对话或信息交换。为了在对话系统中集成自动语音识别器(ASR)与自然语言理解(NLU)模块,通常需要置信度测量和/或替代结果。生成该数据的一种流行的方式是创建词网格,即可能的词假设的网络。然而,词网格的生成可能会减慢语音识别过程,导致相对低效的过程。
另外,词网格通常在第二步骤中从在语音解码期间实时生成的状态或音素网格中构建。由于状态和音素网格可以变得相对较大,并且通常显著地大于词网格,所以这种方法需要大量的RAM。更有效的系统是期望的。
附图说明
在附图中通过示例而非限制的方式示出本文描述的材料。为了示出的简单和清楚,图中所示的元件不一定按比例绘制。例如,为了清楚起见,一些元件的尺寸可以相对于其他元件被放大。进一步地,在认为适当的情况下,在图中重复附图标记以指示对应或类似的元件。在图中:
图1是示出自动语音识别系统的示意图;
图2是使用词历史生成词网格的语音识别过程的流程图;
图3A至图3B是使用词历史生成词网格的语音识别过程的详细流程图;
图4是用于语音解码的示例加权有限状态变换器(WFST)的图示;
图5是包括使用来自图4的WFST的中间词网格的示例静态和动态搜索空间的图示;
图6是示例静态和动态搜索空间的另一个图示;
图7是示例静态和动态搜索空间的另一个图示;
图8是示例静态和动态搜索空间的另一个图示;
图9是示例词网格的图示;
图10是示例中间词网格的图示;
图11是图10的示例中间词网格的另一个图示;
图12是图10的示例中间词网格的另一个图示;
图13是示例系统的说明图;
图14是另一示例系统的说明图;以及
图15示出全部根据本公开的至少一些实施布置的另一示例设备。
具体实施方式
现在参照附图描述一个或多个实施方式。虽然讨论了特定的配置和布置,但是应当理解,这仅仅是为了说明的目的。相关领域的技术人员将认识到,在不脱离本描述的精神和保护范围的情况下,可以采用其他配置和布置。对于相关领域的技术人员将显而易见的是,本文所描述的技术和/或布置还可以在除了本文所描述的之外的各种其他系统和应用中采用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580047908.0/2.html,转载请声明来源钻瓜专利网。