[发明专利]模块化深度学习模型有效
申请号: | 201780014729.6 | 申请日: | 2017-02-27 |
公开(公告)号: | CN108701453B | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | Y·黄;刘朝军;K·库玛;K·P·卡尔高卡;龚一凡 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L15/065 | 分类号: | G10L15/065;G06N3/045;G10L15/16 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模块化 深度 学习 模型 | ||
本文中描述的技术使用模块化模型来处理语音。基于深度学习的声学模型包括不同类型的神经网络层的堆叠。基于深度学习的声学模型的子模块可以用于表示不同的非音素的声学因素,诸如口音来源(例如,母语、非母语)、语音通道(例如,移动、蓝牙、桌面等)、语音应用场景(例如,话音搜索、短消息口述等)和说话者变型(例如,单个说话者或集群说话者)等。本文中描述的技术在第一上下文中使用某些子模块并且在第二上下文中使用第二组子模块。
背景技术
自动语音识别(ASR)允许计算设备理解人类语音。通过使用声学模型的音频处理的结果作为输入,自动语音识别(ASR)可以使用语言模型来确定针对给定语言的似是而非的词序列。理解人类语音可以实现话音到文本转录和话音命令等功能。在现实世界中,需要在各种声学环境中理解语音。对于单个声学模型来说,跨多个环境和说话者来准确地标识声音是一个挑战。
发明内容
提供本发明内容是为了以简化形式介绍所选择的概念,这些概念将在以下具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在孤立地被用作确定所要求保护的主题的范围的辅助手段。
本文中描述的技术可以对标识音频信号内的声学单元或构成语音的其他语言学单元的深度学习声学模型进行模块化。然后可以通过语言模型处理从声学模型输出的声学单元候选以及得分,语言模型输出可以实现人与计算机交互的词序列。因此,该技术可以用于促进由人类话音控制的人机接口。该接口可以接收查询、口述、话音命令和用于其他目的的输入。
深度学习声学模型包括不同类型的神经网络层(例如,全连接层、卷积层、长短期存储器单元层)的堆叠或其组合。这些层可以被组织成前馈或循环网络结构。这些层等效地是深度神经网络的单独模块,并且在本文中可以称为子模块。基于深度学习的声学模型的子模块可以用于表示不同的非音素(non-phonetic)的声学因素,诸如口音来源(例如,母语、非母语)、语音通道(例如,移动、蓝牙、桌面等)、语音应用场景(例如,话音搜索、短消息口述等)和说话者变型(例如,单个说话者或集群说话者)等。
与现有的子模块一起,本文中描述的技术还可以插入附加神经网络子模块,并且使用它们来参数化和优化特定的非音素的声学条件。总体而言,除了适应特定声学条件的一些特定子模块之外,很多神经网络组件跨多个声学条件被共享。
该技术可以用于在语音引擎中的解码,其中特定于条件的子模块被交换进出模型,而不引入附加的运行时的搜索成本。该技术可以被应用于各种自动语音识别(“ASR”)服务,该ASR服务使用不同类型的基于深度学习的声学模型,诸如深度神经网络(“DNN”)、卷积神经网络(“CNN”)、长短期记忆递归神经网络(“LSTM-RNN”)、或卷积长短期记忆深度神经网络(“CL-DNN”)。
附图说明
以下参考附图详细描述本技术的各方面,在附图中:
图1是根据本文中描述的技术的一个方面的适合于生成和使用模块化声学模型的示例性计算环境的框图;
图2是描绘根据本文中描述的技术的一个方面的自动语音识别系统的图;
图3是描绘根据本文中描述的技术的一个方面的具有多类子模块的模块化神经网络的视觉表示的图;
图4是描绘根据本文中描述的技术的一个方面的具有多类子模块的模块化神经网络的基础版本的视觉表示的图;
图5是描绘根据本文中描述的技术的一个方面的、训练特定于男性话音的子模块用于与模块化神经网络一起使用的视觉表示的图;
图6是描绘根据本文中描述的技术的一个方面的、训练特定于女性话音的子模块用于与模块化神经网络一起使用的视觉表示的图;
图7是描绘根据本文中描述的技术的一个方面的包括模块化声学模型的自动语音识别系统的图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780014729.6/2.html,转载请声明来源钻瓜专利网。