[发明专利]一种语音识别模型的个性化联邦学习方法和系统在审
| 申请号: | 202210325453.6 | 申请日: | 2022-03-30 |
| 公开(公告)号: | CN114783443A | 公开(公告)日: | 2022-07-22 |
| 发明(设计)人: | 张鹏远;程高峰;朱涵;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;G10L15/08;G10L15/30;G10L15/02;G06N20/00 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 识别 模型 个性化 联邦 学习方法 系统 | ||
本申请提出一种语音识别模型的个性化联邦学习方法和系统,应用于中心端和多个客户端,在中心端,该方法包括:利用本地有标注语音样本进行有监督的训练语音识别模型,获得所述语音识别模型的种子模型,所述种子模型包括特征提取器及分类器;所述特征提取器用于处理多个客户端输入的语音信息,确定多个客户端中每个客户端的语音信息的个性化特征;利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,获得训练好的分类器;将所述训练好的分类器传递至所述多个客户端中每个客户端。本申请通过将语音识别模型的特征提取器与分类器进行解耦优化的方式实现个性化联邦学习,有效提升语音识别模型性能,降低错误识别率。
技术领域
本申请实施例涉及语音识别领域,具体涉及一种语音识别模型的个性化联邦学习方法和系统。
背景技术
语音识别模型可以实现将语音转化为文本的功能,传统的中心式智能语音系统需要将所有客户端的语音样本汇总到中心端进行中心化训练。然而,在中心化训练范式中,由于需要将客户的语音样本外传至中心端,这一过程中有可能造成数据的泄漏从而导致对数据信息安全的威胁。
联邦学习方法通过在客户端和中心端间传递非原始数据的方法实现在语音样本不外传至中心端的前提下利用所有客户端语音样本进行学习。在现实场景中,通常每个客户端的语音数据分布存在差异,但现有的用于语音识别的联邦学习方法通常没有考虑每个客户端的分布差异问题。
发明内容
本申请实施例的目的是针对多个客户端的个性化的语音,有效提升语音识别模型性能以降低错误识别率。
为实现上述目的,第一方面,本申请实施例提供了一种语音识别模型的个性化联邦学习方法,应用于中心端其特征在于,包括:利用本地有标注语音样本进行有监督的训练语音识别模型,获得所述语音识别模型的种子模型,所述种子模型包括特征提取器及分类器;所述特征提取器用于处理多个客户端输入的语音信息,确定所述多个客户端中每个客户端的语音信息的个性化特征;所述分类器用于根据所述个性化特征将所述语音信息转化为文本;利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,获得训练好的分类器;将所述训练好的分类器传递至所述多个客户端中每个客户端。
作为一个可行的实施方式,所述利用本地有标注语音样本进行有监督的训练语音识别模型,包括:以有标注语音样本为输入,以第一损失函数为学习目标,对所述语音识别模型进行有监督训练,所述第一损失函数为:
其中,x为所述有标注语音样本,y为所述有标注语音样本对应的文本标注,p(x)为所述有标注语音样本的分布函数,θt为第t次训练迭代时的模型参数,a(·)为频谱数据增强函数。
作为一个可行的实施方式,所述利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,包括:以所述多个客户端中每个客户端的个性化特征为输入,以第三损失函数为学习目标,对所述分类器进行半监督训练,所述第三损失函数为:
其中,x2为个性化特征,为所述个性化特征的伪标签。
作为一个可行的实施方式,所述伪标签为:
其中,为第t次训练迭代时所述分类器的教师模型参数。
作为一个可行的实施方式,所述所述分类器的教师模型参数的取值为第t次迭代次的模型参数和前一次教师模型参数的指数滑动平均值:
其中,α为衰减系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210325453.6/2.html,转载请声明来源钻瓜专利网。





