[发明专利]使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统在审
| 申请号: | 202010194390.6 | 申请日: | 2020-03-19 |
| 公开(公告)号: | CN111833850A | 公开(公告)日: | 2020-10-27 |
| 发明(设计)人: | 王鲁宁;杨威;代智勇 | 申请(专利权)人: | 霍尼韦尔国际公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L21/02 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 蒋骏;陈岚 |
| 地址: | 美国新*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 多级 语料库 数据 增广 进行 驾驶舱 语音 识别 声学 模型 训练 方法 系统 | ||
1.一种使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音识别(ASR)模型来执行ASR的设备初始化的方法,所述方法包括:
通过所述至少一个处理器经由用户界面获得预定短语的多个语音数据发音,其中所述多个语音数据发音包括实际发音的语音数据的第一数量的音频样本,并且其中所述多个语音数据发音中的每一个包括所述音频样本中的一个,所述音频样本包括声频分量;
对预定短语的所述多个语音数据发音执行多次增广以生成语料库音频数据集,所述语料库音频数据集包括所述第一数量的音频样本和第二数量的音频样本,所述第二数量的音频样本包括所述第一数量的音频样本的增广版本,具体方式为:
通过以下方式执行第一级增广:处理所述多个语音数据发音中的每一个以增强所述声频分量的第一子集并抑制所述声频分量的第二子集,以生成包括多个语音变换的经变换的语音数据发音;以及
通过处理所述经变换的语音数据发音来执行第二级增广,具体方式为:
通过所述至少一个处理器将所述经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据发音;以及
通过所述至少一个处理器为所述经组合的语音数据发音中的每个调节所述基于噪声的音频数据的级别以生成包括各种噪声级的所述语料库音频数据集,其中所述语料库音频数据集的每个音频样本包括所述多个语音变换中的一个和所述各种噪声级中的一个;以及
通过所述至少一个处理器使用所述语料库音频数据集来训练所述ASR模型以执行ASR。
2.根据权利要求1所述的方法,其中所述设备在飞机中实现,并且其中获得所述多个语音发音是使用与所述飞机通信地耦接的包括麦克风和扬声器的耳麦来执行的。
3.根据权利要求1所述的方法,其中执行所述第一级增广包括利用语音随机变换算法,所述语音随机变换算法随机地选择所述第一子集和所述第二子集。
4.根据权利要求1所述的方法,其中所述声频分量的所述第一子集包括相同频率范围的频率分量。
5.根据权利要求1所述的方法,其中所述声频分量的所述第二子集包括相同频率范围的频率分量。
6.根据权利要求1所述的方法,其中所述设备在飞机中实现,并且其中调节所述基于噪声的音频数据包括调节驾驶舱噪声剖面数据。
7.根据权利要求1所述的方法,其中所述设备在飞机中实现,并且其中所述方法还包括接收机组人员或空中交通管制语音通信,并且使用所述ASR模型来自动地识别所述语音通信中说出的词语。
8.根据权利要求7所述的方法,还包括基于所述所识别的说出的词语来自动地执行飞机功能。
9.根据权利要求1所述的方法,还包括使用随后经由所述用户界面接收的所述预定短语的进一步多个语音数据发音来生成更新的ASR模型。
10.一种使用声学语音识别(ASR)模型来执行ASR的计算机系统,所述计算机系统包括:
系统存储器元件;
用户界面;和
至少一个处理器,其中所述至少一个处理器被配置为:
经由所述用户界面获得预定短语的多个语音数据发音,其中所述多个语音数据发音包括实际发音的语音数据的第一数量的音频样本,并且其中所述多个语音数据发音中的每一个包括所述音频样本中的一个,所述音频样本包括声频分量;
对预定短语的所述多个语音数据发音执行多次增广以生成语料库音频数据集,所述语料库音频数据集包括所述第一数量的音频样本和第二数量的音频样本,所述第二数量的音频样本包括所述第一数量的音频样本的增广版本,具体方式为:
通过以下方式执行第一级增广:处理所述多个语音数据发音中的每一个以增强所述声频分量的第一子集并抑制所述声频分量的第二子集,以生成包括多个语音变换的经变换的语音数据发音;以及
通过处理所述经变换的语音数据发音来执行第二级增广,具体方式为:
将所述经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据发音;以及
为所述经组合的语音数据发音中的每个调节所述基于噪声的音频数据的级别以生成包括各种噪声级的所述语料库音频数据集,其中所述语料库音频数据集的每个音频样本包括所述多个语音变换中的一个和所述各种噪声级中的一个;以及
使用所述语料库音频数据集来训练所述ASR模型以执行ASR。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于霍尼韦尔国际公司,未经霍尼韦尔国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010194390.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子照相感光体、处理盒和图像形成装置
- 下一篇:涂膜剥离剂以及涂膜的剥离方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





