[发明专利]用于增量地生成的语音识别假设的增强的稳定性预测在审
| 申请号: | 201280053938.9 | 申请日: | 2012-08-13 | 
| 公开(公告)号: | CN103918026A | 公开(公告)日: | 2014-07-09 | 
| 发明(设计)人: | I·C·麦格劳;A·H·格伦斯坦 | 申请(专利权)人: | 谷歌公司 | 
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/22 | 
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 | 
| 地址: | 美国加利*** | 国省代码: | 美国;US | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 用于 增量 生成 语音 识别 假设 增强 稳定性 预测 | ||
相关申请的交叉引用
本申请要求2011年11月1日提交的第61/554,039号美国临时专利申请以及2012年5月2日提交的第13/461,033号美国专利申请的权益,它们通过引用结合于此。
技术领域
本说明书总体上涉及语音识别。
背景技术
在某些自动语音识别(ASR)实施方式中,用户在识别结果被显示或者被遵照执行之前完成讲话。
发明内容
在增量语音识别(incremental speech recognition)中,能够在用户讲话的同时从识别器流输出部分结果,因此例如实现用于口头语言接口的若干有用特征。例如,识别器能够在假设(hypothesis)完全形成之前遵照该假设执行或者向用户显示该假设。此外,在识别结果完全确定之前预先计算响应可以具有计算上的优势。连同这些特征和其它有用的特征,口头语言界面能够感觉更自然并且对用户易于响应。
根据本说明书所描述主题的一个总体实施方式,一种系统可以基于例如与持续时间相关的特征的各种特征向增量语音识别结果的分段(segment)分配稳定性度量(stability metric)。代替估计该分段已经被识别器正确解码的概率或者除此之外,该系统能够估计直至并包括最近解码的分段的增量结果中的分段稳定(即,将保持在未来的增量结果中而没有变化)的概率。表现出所期望的稳定性特性的分段例如能够被显示给用户。
总体上,本说明书中所描述主题的一个方面可以体现在如下的方法中,这些方法包括如下动作:接收各自表示增量语音识别器在不同时间点的顶端增量语音识别假设的多个部分增量语音识别假设,并且从该多个部分增量语音识别假设之一识别分段。该方法还包括从该多个部分增量语音识别假设确定该分段在增量语音识别器的顶端增量语音识别假设中持续了多久,并且由一个或多个计算机基于该分段在增量语音识别器的顶端增量语音识别假设中持续了多久来向该分段分配稳定性度量。
总体上,本说明书中所描述主题的另一个方面可以体现在如下的方法中,这些方法包括如下动作:识别在特定时间点、在语音识别器的输出中出现的词或子词,确定该词或子词在语音识别器的输出中出现而没有后续变化的最早时间点,并且基于该特定时间点和最早时间点计算该词或子词的寿命度量(age metric)。
总体上,本说明书中所描述主题的另一个方面可以体现在如下的方法中,这些方法包括如下动作:确定词保持在增量语音识别器的顶端假设中的时间长度或者时机数量,并且基于该时间长度或者时机数量向该词分配稳定性度量。
这些方面的其它实施例包括对应的系统、装置,以及在计算机存储设备上被编码的、被配置为执行该方法的动作的计算机程序。
这些实施例和其它实施例各自可以可选地包括一个或多个以下特征。例如,向分段分配稳定性度量进一步基于该分段的右侧上下文;该分段是词或子词;确定该分段持续了多久包括确定该分段在没有变化的情况下持续了多久;稳定性度量在所识别的、包括该分段的特定增量语音识别假设从增量语音识别器输出之后被分配给该分段;该方法包括接收与话语(utterance)相对应的音频信号,并且对该音频信号执行增量语音识别以生成多个部分增量语音识别假设;该方法包括确定稳定性度量是否满足阈值,并且基于确定稳定性度量是否满足阈值来改变用户界面上该分段的表示的视觉特征;该方法包括确定稳定性度量是否满足阈值,并且基于确定稳定性度量是否满足阈值来将该分段翻译为不同语言;该方法包括确定稳定性度量是否满足阈值,并且基于确定稳定性度量是否满足阈值来将该分段作为搜索查询的一部分提交至搜索引擎;该方法包括确定稳定性度量是否满足阈值,并且基于确定稳定性度量是否满足阈值来在用户界面上显示该分段的表示;以及/或者该接收、识别、确定和分配由一个或多个计算机来执行。
该说明书中所描述主题的一个或多个实施例的细节在附图和以下描述中给出。主题的其它可能的特征、方面和优势将从描述、附图和权利要求变得显而易见。
附图说明
图1是能够评估增量地生成的语音识别假设的稳定性的示例系统的示图。
图2A是由增量语音识别器在各个时刻生成的顶端假设的示例。
图2B图示了用于确定对应于来自图2A的顶端假设的分段的稳定性度量是否满足阈值的样本过程。
图3是用于基于分段的持续时间向其分配稳定性度量的示例过程的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280053938.9/2.html,转载请声明来源钻瓜专利网。





