[发明专利]一种语音识别模型的个性化联邦学习方法和系统在审
| 申请号: | 202210325453.6 | 申请日: | 2022-03-30 |
| 公开(公告)号: | CN114783443A | 公开(公告)日: | 2022-07-22 |
| 发明(设计)人: | 张鹏远;程高峰;朱涵;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;G10L15/08;G10L15/30;G10L15/02;G06N20/00 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 识别 模型 个性化 联邦 学习方法 系统 | ||
1.一种语音识别模型的个性化联邦学习方法,应用于中心端,其特征在于,所述方法包括:
利用本地有标注语音样本进行有监督的训练语音识别模型,获得所述语音识别模型的种子模型,所述种子模型包括特征提取器及分类器;所述特征提取器用于处理多个客户端输入的语音信息,确定所述多个客户端中每个客户端的语音信息的个性化特征;所述分类器用于根据所述个性化特征将所述语音信息转化为文本;
利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,获得训练好的分类器;
将所述训练好的分类器传递至所述多个客户端中每个客户端。
2.根据权利要求1所述的方法,其特征在于,所述利用本地有标注语音样本进行有监督的训练语音识别模型,包括:
以有标注语音样本为输入,以第一损失函数为学习目标,对所述语音识别模型进行有监督训练,所述第一损失函数为:
其中,x为所述有标注语音样本,y为所述有标注语音样本对应的文本标注,p(x)为所述有标注语音样本的分布函数,θt为第t次训练迭代时的模型参数,a(·)为频谱数据增强函数。
3.根据权利要求1的方法所述,其特征在于,所述利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,包括:
以所述多个客户端中每个客户端的个性化特征为输入,以第三损失函数为学习目标,对所述分类器进行半监督训练,所述第三损失函数为:
其中,x2为个性化特征,为所述个性化特征的伪标签。
4.根据权利要求3的方法所述,其特征在于,所述伪标签为:
其中,为第t次训练迭代时所述分类器的教师模型参数。
5.根据权利要求4的方法所述,其特征在于,所述所述分类器的教师模型参数的取值为第t次迭代次的模型参数和前一次教师模型参数的指数滑动平均值:
其中,α为衰减系数。
6.一种语音识别模型的个性化联邦学习方法,应用于多个客户端,其特征在于,包括:
获得语音识别模型的种子模型;
使用本地的语音样本对所述种子模型的特征提取器进行半监督训练,得到训练好的特征提取器;
将训练集中的语音信息输入所述个性化特征提取器,得到所述语音信息的个性化特征,并将所述个性化特征发送至中心端;
将所述训练好的特征提取器与训练好的分类器组合得到训练好的语音识别模型;所述训练好的分类器由中心端训练。
7.根据权利要求6的方法所述,其特征在于,所述使用本地的语音样本对所述种子模型的特征提取器进行半监督训练,包括:
以所述本地的语音样本为输入,以第二损失函数为学习目标,对所述语音识别模型进行半监督训练,所述第二损失函数为:
其中,x1为语音样本,为伪标签。
8.根据权利要求7的方法所述,其特征在于,所述伪标签为:
其中,为第t次训练迭代时的教师模型参数。
9.根据权利要求8的方法所述,其特征在于,所述教师模型参数的取值为第t次迭代次的学生模型参数和前一次教师模型参数的指数滑动平均值:
其中,模型参数θt为第t次训练迭代时的学生模型参数,α为衰减系数。
10.一种语音识别模型的个性化联邦学习系统,其特征在于,所述系统包括:
中心端,用于利用本地有标注语音样本进行有监督的训练语音识别模型,获得所述语音识别模型的种子模型,所述种子模型包括特征提取器及分类器;所述特征提取器用于处理多个客户端输入的语音信息,确定所述多个客户端中每个客户端的语音信息的个性化特征;所述分类器用于根据所述个性化特征将所述语音信息转化为文本;利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,获得训练好的分类器;将所述训练好的分类器传递至所述多个客户端中每个客户端;
多个客户端,所述多个客户端中的每一个客户端用于获得所述语音识别模型的种子模型;使用本地的语音样本对所述种子模型的特征提取器进行半监督训练,得到训练好的特征提取器;将训练集中的语音信息输入所述个性化特征提取器,得到所述语音信息的个性化特征,并将所述个性化特征发送至中心端;将所述训练好的特征提取器与训练好的分类器组合得到训练好的语音识别模型;所述训练好的分类器由中心端训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210325453.6/1.html,转载请声明来源钻瓜专利网。





