[发明专利]一种语音识别中快速标注声学模型训练数据的方法在审
申请号: | 202210258526.4 | 申请日: | 2022-03-16 |
公开(公告)号: | CN114694639A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 吴科;徐正虹;吴立楠 | 申请(专利权)人: | 北京智齿众服技术咨询有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/06;G10L15/26;G06F16/35;G06F40/166;G06K9/62 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 胡乐 |
地址: | 100070 北京市丰台区南四环西路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 快速 标注 声学 模型 训练 数据 方法 | ||
1.一种语音识别中快速标注声学模型训练数据的方法,其特征在于,包括:
运用已训练的基础的声学模型进行语音识别工作,其中会出现识别错误的词语和句子;
对记录的识别错误的词语和句子,使用音频切割工具进行切割,得到识别错误的音频文件,记为WrongPart,WrongPart包含识别的一个或多个词语;
将预先准备的正确原始文本句子中对应于所述WrongPart的词语删除,并标记删除位置;删除后得到的原始文本中剩余的文本,记为ResidueScript;
利用语音合成系统将所述ResidueScript转换为音频文件,记为ResidueWav,将ResidueWav与WrongPart按照原始文字位置进行组合,使WrongPart填补所述删除位置,得到一条声学模型的标注数据,记为TrainFile;
多条不同的TrainFile组成用于声学模型微调的训练集TrainFiles。
2.根据权利要求1所述的语音识别中快速标注声学模型训练数据的方法,其特征在于,所述预先准备的正确原始文本句子,来自按照以下方式准备的文本句子集:
根据设定行业的业务预先进行业务分类,建立常见的业务类型,每种业务类型下获取对应的文本句子集合备用;
对于不同业务类型的文本句子,进行切割和再组合,每个业务类型得到扩增后的文本句子,共同组成该业务类型下的文本句子集。
3.根据权利要求1所述的语音识别中快速标注声学模型训练数据的方法,其特征在于,所述已训练的基础的声学模型,按照以下方式得到:
获取设定行业批量的待标注音频数据,并按照语音主体身份类型进行划分;
对于确定语音主体身份类型的待标注音频数据,调用已有的两种语音识别工具分别进行识别,相应得到第一初步识别结果数据集和第二初步识别结果数据集;
使用文本编辑距离算法计算第一初步识别结果数据集与第二初步识别结果数据集之间的文本编辑距离,保留编辑距离小于预设阈值的识别结果及对应的原始音频作为主体数据加入到预标注集,对于编辑距离大于以及等于预设阈值的识别结果,提取部分识别结果及对应的原始音频作为附加数据也加入到预标注集;所述主体数据的音频总时长远大于所述附加数据的源数据的音频总时长;
所述预标注集经过校验后作为用于训练声学模型的基础训练集;利用所述基础训练集训练得到基础的声学模型。
4.根据权利要求3所述的语音识别中快速标注声学模型训练数据的方法,其特征在于,所述设定行业为客服领域涉及的行业,所述语音主体身份类型分为客服和客户;相应的,所述按照语音主体身份类型进行划分,具体是按照左右通道进行音频数据的通道分离。
5.根据权利要求3所述的语音识别中快速标注声学模型训练数据的方法,其特征在于,在所述调用已有的两种语音识别工具分别进行识别之前,先使用VAD切割音频,得到单独的语句音频。
6.根据权利要求3所述的语音识别中快速标注声学模型训练数据的方法,其特征在于,所述已有的两种语音识别工具,采用腾讯语音识别ASR接口和阿里语音识别ASR接口。
7.根据权利要求3所述的语音识别中快速标注声学模型训练数据的方法,其特征在于,编辑距离大于以及等于预设阈值的音频总时长,为编辑距离小于预设阈值的音频总时长的20%~40%。
8.根据权利要求7所述的语音识别中快速标注声学模型训练数据的方法,其特征在于,所述附加数据按照以下方式确定:
将文本编辑距离大于以及等于预设阈值的数据,进一步细分编辑距离划分为高、中、低三部分,再从三个部分中按等比例随机抽取部分数据,组合得到所述附加数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智齿众服技术咨询有限公司,未经北京智齿众服技术咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210258526.4/1.html,转载请声明来源钻瓜专利网。