[发明专利]使用原声词嵌入对直接原声到词的语音识别中的词汇表外的词的识别在审
| 申请号: | 202080010147.2 | 申请日: | 2020-02-03 |
| 公开(公告)号: | CN113330510A | 公开(公告)日: | 2021-08-31 |
| 发明(设计)人: | K·奥迪克哈希;S·塞特尔;K·利韦斯库;M·A·皮奇尼 | 申请(专利权)人: | 国际商业机器公司;丰田芝加哥技术研究所 |
| 主分类号: | G10L15/16 | 分类号: | G10L15/16 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 吴信刚 |
| 地址: | 美国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 原声 嵌入 直接 语音 识别 中的 词汇表 | ||
一种用于在自动语音识别(ASR)系统中学习词汇表外的(OOV)词的方法(和结构和计算机产品)包括:使用原声词嵌入递归神经网络(AWERNN)来接收所述ASR系统的新OOV词的特征序列,所述RNN提供原声词嵌入(AWE)向量作为其输出。从AWERNN输出的AWE向量被提供作为原声词嵌入到训练的原声到词的神经网络(AWE→A2W NN)的输入,以从所述AWE向量提供OOV词的权重值。将OOV词权重插入到由ASR系统使用的原声到词(A2W)的词嵌入的列表中,以从语音原声特征的输入输出所识别的词,其中OOV词权重相对于A2W词嵌入列表中的现有权重被插入到A2W词嵌入列表中。
背景技术
本发明总体上涉及直接原声到词(acoustics-to-word,A2W)的自动语音识别(ASR)。更具体地,原声词嵌入的递归神经网络(AWERNN)从用户输入的新的词汇表外的(OOV)词的特征序列开发AWE向量,作为ASR系统能够在无需额外训练或使用外部训练的语言模型的情况下识别新的OOV词的机制。
发明内容
直接原声到词(A2W)自动语音识别(ASR)系统使用神经网络来从输入语音话语中直接识别词,而无需使用任何外部解码器或语言模型。然而,A2WASR系统利用固定词汇表(称为词汇表内的(IV)词)来训练,并且不能容易地识别词汇表外的(OOV)词。本发明允许用户将新的OOV词作为特征序列输入到A2W ASR系统中,以允许OOV词被添加到A2W词嵌入列表中,使得ASR能够在测试时容易地从语音原声特征直接识别OOV词,而无需任何进一步的训练。
根据示例性实施例,本发明描述了一种用于在自动语音识别(ASR)系统中学习词汇表外的(OOV)词的方法,所述方法包括:使用嵌入原声词嵌入递归神经网络(AWERNN)来接收所述ASR系统的新OOV词的特征序列,所述RNN提供原声词嵌入(AWE)向量作为其输出;将从所述AWE RNN输出的所述AWE向量作为输入提供给被训练为从所述AWE向量提供OOV词权重值的原声词嵌入到原声到词的神经网络(AWE→A2W NN);以及将所述OOV词权重插入到所述ASR系统用来从语音原声特征的输入输出识别出的词的原声到词(A2W)词嵌入的列表中,其中将所述OOV词权重相对于所述A2W词嵌入列表中的现有权重插入到所述A2W词嵌入列表中。
优选地,本发明提供了一种方法,其中,AWE RNN初始使用词汇表内的(IV)词的特征序列被训练为整个子网络,其中,所述初始训练进一步包括原声嵌入递归神经网络(AERNN),所述原声嵌入递归神经网络接收与在训练期间使用的IV词的每个特征序列相对应的原声序列,其中,所述AWE RNN和AE RNN的输出被传递到对比的损失函数中,并且其中,使用反向传播算法训练所述AWE RNN和AWE→A2W NN以训练所述AWE RNN的权重,AE RNN的权重、AWE→A2W NN的权重使所述对比的损失函数最小化。
优选地,本发明提供一种方法,其中在整个子网络的初始训练之后,AE RNN不用于ASR系统的正常操作,而仅AWE RNN用于用于OOV词到所述ASR系统的后续引入。
优选地,本发明提供了一种方法,其中,该ASR系统进一步包括原声到词的递归神经网络(A2W RNN),该原声到词的递归神经网络接收语音原声特征作为其中的输入,并且使用点积将该A2WRNN的输出与该A2W词嵌入列表的嵌入进行比较,并且其中,在所述ASR系统的正常操作模式期间,所识别的词语由所述ASR系统响应于来自到所述ASR系统中的原声输入的语音原声特征而输出,来自A2W单词嵌入列表的具有最高比较结果的单词被提供作为ASR系统的输出,作为用于输入语音原声特征的识别词。
优选地,本发明提供了一种方法,其中,使用词汇表内的(IV)词来训练包括A2WRNN的整个子网络,其中,将IV词的语音原声特征与所述IV词对应的词序列提供到损失函数中,并且其中,反向传播算法更新A2W RNN的权重,以使该损失函数最小化并且提供A2W词嵌入列表。
优选地,本发明提供了一种在云服务中实现的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司;丰田芝加哥技术研究所,未经国际商业机器公司;丰田芝加哥技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080010147.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:挖土机及挖土机的管理装置
- 下一篇:加强用层叠薄膜





