[发明专利]使用多级语料库数据增广进行驾驶舱语音识别声学模型训练的方法和系统在审

专利信息
申请号: 202010194390.6 申请日: 2020-03-19
公开(公告)号: CN111833850A 公开(公告)日: 2020-10-27
发明(设计)人: 王鲁宁;杨威;代智勇 申请(专利权)人: 霍尼韦尔国际公司
主分类号: G10L15/06 分类号: G10L15/06;G10L15/22;G10L21/02
代理公司: 中国专利代理(香港)有限公司 72001 代理人: 蒋骏;陈岚
地址: 美国新*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 使用 多级 语料库 数据 增广 进行 驾驶舱 语音 识别 声学 模型 训练 方法 系统
【权利要求书】:

1.一种使通过包括至少一个处理器和系统存储器元件的计算机系统使用声学语音识别(ASR)模型来执行ASR的设备初始化的方法,所述方法包括:

通过所述至少一个处理器经由用户界面获得预定短语的多个语音数据发音,其中所述多个语音数据发音包括实际发音的语音数据的第一数量的音频样本,并且其中所述多个语音数据发音中的每一个包括所述音频样本中的一个,所述音频样本包括声频分量;

对预定短语的所述多个语音数据发音执行多次增广以生成语料库音频数据集,所述语料库音频数据集包括所述第一数量的音频样本和第二数量的音频样本,所述第二数量的音频样本包括所述第一数量的音频样本的增广版本,具体方式为:

通过以下方式执行第一级增广:处理所述多个语音数据发音中的每一个以增强所述声频分量的第一子集并抑制所述声频分量的第二子集,以生成包括多个语音变换的经变换的语音数据发音;以及

通过处理所述经变换的语音数据发音来执行第二级增广,具体方式为:

通过所述至少一个处理器将所述经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据发音;以及

通过所述至少一个处理器为所述经组合的语音数据发音中的每个调节所述基于噪声的音频数据的级别以生成包括各种噪声级的所述语料库音频数据集,其中所述语料库音频数据集的每个音频样本包括所述多个语音变换中的一个和所述各种噪声级中的一个;以及

通过所述至少一个处理器使用所述语料库音频数据集来训练所述ASR模型以执行ASR。

2.根据权利要求1所述的方法,其中所述设备在飞机中实现,并且其中获得所述多个语音发音是使用与所述飞机通信地耦接的包括麦克风和扬声器的耳麦来执行的。

3.根据权利要求1所述的方法,其中执行所述第一级增广包括利用语音随机变换算法,所述语音随机变换算法随机地选择所述第一子集和所述第二子集。

4.根据权利要求1所述的方法,其中所述声频分量的所述第一子集包括相同频率范围的频率分量。

5.根据权利要求1所述的方法,其中所述声频分量的所述第二子集包括相同频率范围的频率分量。

6.根据权利要求1所述的方法,其中所述设备在飞机中实现,并且其中调节所述基于噪声的音频数据包括调节驾驶舱噪声剖面数据。

7.根据权利要求1所述的方法,其中所述设备在飞机中实现,并且其中所述方法还包括接收机组人员或空中交通管制语音通信,并且使用所述ASR模型来自动地识别所述语音通信中说出的词语。

8.根据权利要求7所述的方法,还包括基于所述所识别的说出的词语来自动地执行飞机功能。

9.根据权利要求1所述的方法,还包括使用随后经由所述用户界面接收的所述预定短语的进一步多个语音数据发音来生成更新的ASR模型。

10.一种使用声学语音识别(ASR)模型来执行ASR的计算机系统,所述计算机系统包括:

系统存储器元件;

用户界面;和

至少一个处理器,其中所述至少一个处理器被配置为:

经由所述用户界面获得预定短语的多个语音数据发音,其中所述多个语音数据发音包括实际发音的语音数据的第一数量的音频样本,并且其中所述多个语音数据发音中的每一个包括所述音频样本中的一个,所述音频样本包括声频分量;

对预定短语的所述多个语音数据发音执行多次增广以生成语料库音频数据集,所述语料库音频数据集包括所述第一数量的音频样本和第二数量的音频样本,所述第二数量的音频样本包括所述第一数量的音频样本的增广版本,具体方式为:

通过以下方式执行第一级增广:处理所述多个语音数据发音中的每一个以增强所述声频分量的第一子集并抑制所述声频分量的第二子集,以生成包括多个语音变换的经变换的语音数据发音;以及

通过处理所述经变换的语音数据发音来执行第二级增广,具体方式为:

将所述经变换的语音数据发音与基于噪声的音频数据组合以生成经组合的语音数据发音;以及

为所述经组合的语音数据发音中的每个调节所述基于噪声的音频数据的级别以生成包括各种噪声级的所述语料库音频数据集,其中所述语料库音频数据集的每个音频样本包括所述多个语音变换中的一个和所述各种噪声级中的一个;以及

使用所述语料库音频数据集来训练所述ASR模型以执行ASR。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于霍尼韦尔国际公司,未经霍尼韦尔国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010194390.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top