[发明专利]音频识别方法、系统和机器设备在审
申请号: | 201910087286.4 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109859743A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 苏丹;王珺;陈杰;俞栋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/14;G06K9/62;G06N3/04 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美;叶虹 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频数据流 标注 神经网络 损失函数 音频识别 机器设备 深度特征 时间帧 融合 混淆 神经网络训练 惩罚 数据流 参数更新 距离度量 类内距离 特征抽取 音频数据 中心向量 综合音频 鲁棒性 衡量 输出 网络 | ||
本发明揭示了一种实现音频识别的神经网络训练方法、系统和机器设备。所述方法包括:获取音频数据流;对音频数据流中每个时间帧的不同音频数据,在神经网络中进行网络各层的特征抽取,获得对应时间帧输出的深度特征;为标注数据中的给定标注,通过深度特征对音频数据流在设定损失函数中融合相对给定标注的类间混淆度衡量指数和类内距离惩罚值;通过融合得到的损失函数值,进行神经网络中的参数更新。基于所融合得到的损失函数值进行神经网络的训练,综合音频数据流相对给定标注的类间混淆度衡量指数以及相对中心向量之间距离度量的惩罚来提高所实现音频识别的鲁棒性。
技术领域
本发明涉及计算机声学应用技术领域,特别涉及一种音频识别方法、系统 和机器设备。
背景技术
声学场景中音频识别的实现,即各种音频分类任务的执行往往受限于声学 场景的变化性,例如基于音频识别的自动语音识别,这将使得音频识别难以应 用于各种音频分类任务中。声学场景的变化性是来自于多方面的,例如,说话 人、口音、背景噪声、混响、声道和录音条件等等。
随着科学技术的发展和硬件计算能力的大幅提升,将基于神经网络实现音 频识别。但是,基于神经网络实现的音频识别仍然无法保证对变化的声学场景 的鲁棒性。
用于实现音频识别的神经网络,存在着其训练过程无法涵盖所有可能的声 学场景的状况,进而导致后续对神经网络所进行的测试过程是与训练过程不匹 配的。
神经网络的训练过程虽然尽可能多的涵盖各种声学场景,但是,仍然可能 会遇到新的状况,例如,新的录音环境、麦克风类型、说话人、口音和背景噪 声等声学条件,并且所有的状况都有涵盖到,这些状况的统计分布仍然有着很 大的变化性。
也就是说,音频识别的进行存在着训练过程所涵盖的声学场景变化,即声 学条件与测试、应用时的不匹配。亟待为音频识别所使用的神经网络增强训练 时未见以及变化大的声学条件下的鲁棒性。
发明内容
为了解决相关技术中用于实现音频识别的神经网络缺乏对训练时未见以及 变化大的声学条件下的鲁棒性,本发明提供一种实现音频识别的神经网络训练 方法、系统和机器设备。
一种音频识别方法,所述方法包括:
获取进行音频识别的音频数据流,所述音频数据流包括分别对应若干时间 帧的音频数据;
对所述音频数据流中每个时间帧的不同音频数据,在神经网络中进行网络 各层的特征抽取,获得对应时间帧输出的深度特征;
为标注数据中的给定标注,通过所述深度特征对所述音频数据流在设定损 失函数中融合相对所述给定标注的类间混淆度衡量指数和类内距离惩罚值;
通过融合得到相对标注数据中一系列给定标注的损失函数值,对所述音频 数据流获得音频标注结果。
一种音频识别系统,所述音频识别系统包括:
数据流获取模块,用于获取进行音频识别的音频数据流,所述音频数据流 包括分别对应若干时间帧的音频数据;
特征抽取模块,用于对所述音频数据流中每个时间帧的不同音频数据,在 神经网络中进行网络各层的特征抽取,获得对应时间帧输出的深度特征;
融合计算模块,用于为标注数据中的给定标注,通过所述深度特征对所述 音频数据流在设定损失函数融合相对所述给定标注的类间混淆度衡量指数和类 内距离惩罚值;
结果获取模块,用于通过融合得到相对标注数据中一系列给定标注的损失 函数值,对所述音频数据流获得音频标注结果。
一种机器设备,包括:
处理器;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910087286.4/2.html,转载请声明来源钻瓜专利网。