[发明专利]模型训练方法、声纹特征的提取方法及其设备、程序产品在审
| 申请号: | 202111290709.6 | 申请日: | 2021-11-02 |
| 公开(公告)号: | CN114005453A | 公开(公告)日: | 2022-02-01 |
| 发明(设计)人: | 赵情恩 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L25/18 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 霍莉莉;刘芳 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模型 训练 方法 声纹 特征 提取 及其 设备 程序 产品 | ||
本公开提供的模型训练方法、声纹特征的提取方法及其设备、程序产品中,涉及一种模型训练方法、声纹特征的提取方法及其设备、程序产品。技术方案包括:获取应用在第一场景的第一模型、第一子帧以及目标子帧其中,第一音频具有标注信息;提取第一子帧的第一频谱特征,并提取目标子帧的目标频谱特征;根据第一子帧的第一频谱特征、第一音频的标注信息、目标子帧的目标频谱特征以及目标子帧所属的目标音频,对第一模型进行训练,得到目标模型。这种实施方式中将子帧所属的目标音频的信息作为子帧的标注信息,从而能够利用具有标注信息的第一音频和目标音频对第一模型进行训练,得到可以识别目标场景中音频的声纹特征的目标模型。
技术领域
本公开涉及人工智能技术中的语音技术、深度学习技术,尤其涉及一种模型训练方法、声纹特征的提取方法及其设备、程序产品。
背景技术
目前,声纹识别技术已经应用在很多场景中,通过对音频进行声纹识别,能够确定音频中讲话人的身份。一般通过模型训练的方式能够得到用于识别声纹的模型。
相关技术中,声纹识别模型可以应用在多种场景中,为了降低模型的训练成本,可以对已有的声纹识别模型进行调整,使得该模型可以应用在目标场景中。比如,存在能够应用在保险领域的声纹识别模型,可以利用银行业务相关的数据对该模型进行优化训练,得到能够应用在银行业务中的声纹识别模型。
但是,对模型进行优化训练之前,还需要收集目标场景的业务数据,从而利用这些业务数据对已有的模型进行训练。然而这种方式需要收集大量的目标场景的业务数据,还需要对这些业务数据进行标注,才能够对已有的模型进行训练,因此,这种方式周期较长,且成本高。
发明内容
本公开提供了一种模型训练方法、声纹特征的提取方法及其设备、程序产品,以解决相关技术中对已有的模型进行跨场景训练时周期长、成本高的问题。
根据本公开的第一方面,提供一种模型训练方法,包括:
获取应用在第一场景的第一模型、第一子帧以及目标子帧,所述第一子帧是对应用在第一场景的第一音频进行分帧处理得到的,所述目标子帧是对应用在目标场景的目标音频进行分帧处理得到的;其中,所述第一音频具有标注信息;
提取所述第一子帧的第一频谱特征,并提取所述目标子帧的目标频谱特征;
根据所述第一子帧的第一频谱特征、所述第一音频的标注信息、所述目标子帧的目标频谱特征、以及所述目标子帧所属的目标音频对所述第一模型进行训练,得到目标模型。
根据本公开的第二方面,提供了一种声纹特征的提取方法,包括:
获取待识别的音频数据,提取所述音频数据的频谱特征;
将所述频谱特征输入目标模型,得到所述音频数据的声纹特征;所述目标模型为通过如第一方面所述的方法训练得到的。
根据本公开的第三方面,提供了一种模型训练装置,包括:
获取单元,用于获取应用在第一场景的第一模型、第一子帧以及目标子帧,所述第一子帧是对应用在第一场景的第一音频进行分帧处理得到的,所述目标子帧是对应用在目标场景的目标音频进行分帧处理得到的;其中,所述第一音频具有标注信息;
提取单元,用于提取所述第一子帧的第一频谱特征,并提取所述目标子帧的目标频谱特征;
训练单元,用于根据所述第一子帧的第一频谱特征、所述第一音频的标注信息、所述目标子帧的目标频谱特征、以及所述目标子帧所属的目标音频对所述第一模型进行训练,得到目标模型。
根据本公开的第四方面,提供了一种声纹特征的提取装置,包括:
音频数据获取单元,用于获取待识别的音频数据,提取所述音频数据的频谱特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111290709.6/2.html,转载请声明来源钻瓜专利网。





