[发明专利]数字序列的端到端自动语音识别在审
| 申请号: | 202080032988.3 | 申请日: | 2020-03-26 |
| 公开(公告)号: | CN113811946A | 公开(公告)日: | 2021-12-17 |
| 发明(设计)人: | 查尔斯·凯莱布·佩瑟;张浩;塔拉·N·萨纳特;吴泽林 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/26;G10L13/08 |
| 代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 肖华 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数字 序列 端到端 自动 语音 识别 | ||
1.一种方法(500),其特征在于,所述方法包括:
在数据处理硬件(610)处接收包含数字序列的话语(106)的音频数据(110);
由所述数据处理硬件(610)使用序列到序列语音识别模型(200)对所述话语(106)的所述音频数据(110)进行解码,以生成所述话语(106)的中间转录(115)作为所述序列到序列语音识别模型(200)的输出;
由所述数据处理硬件(610)使用神经校正器/去规范器(300)处理从所述序列到序列语音识别模型(200)输出的所述中间转录(115),以生成最终转录(120),所述最终转录(120)表示书面域中的所述话语(106)的所述数字序列,所述神经校正器/去规范器(300)在训练样本集上训练,每个训练样本包括用于相应训练话语(422)的语音识别假设(115)以及所述相应训练话语(422)的基础真值转录(424),其中,所述相应训练话语(422)的所述基础真值转录(424)在所述书面域中;以及
由所述数据处理硬件(610)提供表示所述书面域中的所述话语(106)的所述数字序列的所述最终转录(120)以供输出。
2.根据权利要求1所述的方法(500),其特征在于,
从所述序列到序列语音识别模型(200)输出的所述中间转录(115)在口语域中;以及
用于训练所述神经校正器/去规范器(300)的所述训练样本集中的每个训练样本的所述语音识别假设在所述口语域中。
3.根据权利要求2所述的方法(500),其特征在于,处理所述中间转录(115)包括将所述神经校正器/去规范器(300)用作书面域去规范模型,所述书面域去规范模型被配置为:
接收从所述序列到序列语音识别模型(200)输出的所述口语域中的所述中间转录(115)作为输入;以及
生成所述书面域中的所述话语(106)的所述最终转录(120)作为输出,所述书面域中的所述话语(106)的所述最终转录(120)将所述数字序列表示为相应的数字表示。
4.根据权利要求1-3中任一项所述的方法(500),其特征在于,
从所述序列到序列语音识别模型(200)输出的所述中间转录(115)在所述书面域中,并将所述数字序列表示为数字单词;以及
用于训练所述神经校正器/去规范器(300)的所述训练样本集中的每个训练样本的所述语音识别假设在所述书面域中。
5.根据权利要求4所述的方法(500),其特征在于,处理所述中间转录(115)包括将所述神经校正器/去规范器(300)用作书面域校正模型,所述书面域校正模型被配置为:
接收从所述序列到序列语音识别模型(200)输出的所述书面域中的所述中间转录(115)作为输入;以及
生成作为校正转录的所述最终转录(120)作为输出,所述校正转录将初始转录中的数字单词替换为所述书面域中的所述数字序列的相应数字表示。
6.根据权利要求5所述的方法(500),其特征在于,所述书面域校正模型被配置为:通过仅处理包括所述数字单词的所述中间转录(115)的第一部分而不处理包括非数字单词的所述中间转录(115)的剩余第二部分,来生成作为所述校正转录的所述最终转录(120)作为输出。
7.根据权利要求6所述的方法(500),其特征在于,所述书面域校正模型被配置为将所述非数字单词从所述中间转录(115)复制到所述校正转录中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080032988.3/1.html,转载请声明来源钻瓜专利网。





