[发明专利]交互式语音识别无效
| 申请号: | 201210462722.X | 申请日: | 2012-11-16 |
| 公开(公告)号: | CN102915733A | 公开(公告)日: | 2013-02-06 |
| 发明(设计)人: | M.S.B.塞加尔;M.M.拉扎 | 申请(专利权)人: | 微软公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 董宁;汪扬 |
| 地址: | 美国华*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 交互式 语音 识别 | ||
背景技术
电子设备用户逐渐依赖于从因特网获取的信息作为新闻报道、评级、物品描述、公告、事件信息以及用户可能感兴趣的其他各类信息的来源。此外,用户逐渐依赖于自动语音识别系统减轻在针对诸如搜索、请求地图(map)、请求自动拨号电话呼叫和发短信(texting)等应用手动输入文本时遇到的困难。
发明内容
根据一个一般方面,一种有形地包含在计算机可读存储介质中的计算机程序产品可以包括能够使至少一个数据处理装置获取与第一话语(utterance)关联的音频数据的可执行代码。进一步地,所述至少一个数据处理装置可根据与所述音频数据关联的音频信号分析,通过设备处理器获取与所述第一话语的第一语音到文本转化关联的文本结果,所述文本结果包括多个对应于至少一个单词的可选文本替代。进一步地,所述至少一个数据处理装置可以启动显示包括文本替代中第一个的文本结果的至少一部分。进一步地,所述至少一个数据处理装置可以接收指示文本替代中第二个的选择指示。
根据另一方面,可以获取与第一话语关联的第一多个音频特征。可根据与所述音频特征关联的音频信号分析,获取与所述第一话语的第一语音到文本转化关联的第一文本结果,所述第一文本结果包括至少一个第一单词。可获取与关联于至少一个第一单词的第一语音到文本转化的至少第一部分相关的第一组音频特征。可启动显示包括至少一个第一单词的第一文本结果的至少一部分。可接收指示第一语音到文本转化中错误的选择指示,所述错误与至少一个第一单词关联。
根据另一方面,一种系统可以包括输入获取组件,所述组件获取与第一话语关联的第一多个音频特征。所述系统还可以包括语音转文本组件,所述组件根据与音频特征关联的音频信号分析,通过设备处理器获取与所述第一话语的第一语音到文本转化关联的第一文本结果,所述第一文本结果包括至少一个第一单词。所述系统还可以包括片段(clip)相关组件,所述组件获取第一多个音频特征的第一相关部分,所述第一相关部分与第一语音到文本转化到至少一个第一单词关联。所述系统还可以包括结果递送组件,所述组件启动输出第一文本结果和第一多个音频特征的第一相关部分。所述系统还可以包括校正请求获取组件,所述组件获取包括有关至少一个第一单词是第一语音到文本转化错误的指示,以及第一多个音频特征的第一相关部分的校正请求。
本发明内容以简单的形式介绍了一系列概念,这些概念将在具体实施方式中进一步描述。本发明内容不旨在识别所要保护的主题的关键特征或必要特征,不旨在用于限定所要保护的主题的范围。下面的附图和描述将阐述一个或多个实现细节。根据描述、附图以及权利要求,其他特征将变得显而易见。
附图说明
图1是用于交互式语音识别的系统实例的方框图。
图2a-2b是示出图1中系统的实例操作的流程图。
图3a-3b是示出图1中系统的实例操作的流程图。
图4 a-4c是示出图1中系统的实例操作的流程图。
图5描绘与图1中系统的实例交互。
图6描绘与图1中系统的实例交互。
图7描绘与图1中系统的实例交互。
图8描绘与图1中系统的实例交互。
图9描绘与图1中系统的实例交互。
图10a-10c描绘图1中系统的实例用户接口。
具体实施方式
当电子设备用户逐渐依赖于从设备本身或因特网获取的信息时,他们也在逐渐依赖于自动语音识别系统减轻在针对诸如搜索、请求地图、请求自动拨号电话呼叫和发短信等许多应用手动输入文本时遇到的困难。
例如,从用户角度来看,用户可能希望对着移动设备说出一个或多个单词并几乎立即通过该移动设备接收到结果。例如,移动设备可以在用户说出(多个)单词时接收语音信号,并且既可以在设备本身上处理语音信号,也可以将语音信号(或从语音信号提取的预处理的音频特征)发送到一个或多个其他设备(例如,后端服务器或“云”)进行处理。识别引擎然后可以识别信号并将相应文本发送到设备。如果所述识别引擎对用户话语的一个或多个单词进行错误分类(例如,返回用户所说的一个或多个单词的同音异义词或近同音异义词),则用户希望避免再次说出他/她之前话语的所有单词,或者避免说出不同的单词或短语以希望该识别能够通过不同的(多个)单词识别出用户的意图,或者避免再次手动输入文本来替代对语音识别的依赖。
此处讨论的实例技术可以根据音频片段与对应于由语音信号(例如,音频特征)对应的相关音频数据部分转化而来的各单词或短语的话语部分的关联来提供语音转文字识别 。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210462722.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高压静电生物育种技术
- 下一篇:由双辅翼构成的轴流风机叶轮叶片





