[发明专利]说话人日志模型的训练方法、装置、设备及存储介质在审
| 申请号: | 202210177866.4 | 申请日: | 2022-02-25 |
| 公开(公告)号: | CN114429768A | 公开(公告)日: | 2022-05-03 |
| 发明(设计)人: | 罗艺 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L17/22 | 分类号: | G10L17/22;G10L17/02;G10L17/04;G10L17/18 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 李文静 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 说话 人日 模型 训练 方法 装置 设备 存储 介质 | ||
本申请公开了一种说话人日志模型的训练方法、装置、设备及存储介质,属于人工智能领域。包括:获取样本语音信号的特征序列及真实标签;根据特征序列获取估计吸引子序列;将特征序列及估计吸引子序列输入至说话人日志模型中得到估计说话人类别概率;基于估计说话人类别概率及真实标签,计算第一损失函数值;基于第一损失函数值对模型参数进行更新。通过上述方法,使得训练好的说话人日志模型能够具备更高的语音信号识别精度,从而生成更加准确的说话人日志。
技术领域
本申请实施例涉及人工智能领域,特别涉及一种说话人日志模型的训练方法、装置、设备及存储介质。
背景技术
说话人日志是指在采集的语音信号中,通过分辨出不同说话人的说话阶段对语音信号进行标注,从而检测出每段语音对应的说话人的身份,进而辅助说话人识别系统针对每个说话人进行对应的识别,说话人日志应用于会议记录、客服工作监督等多种场景中。
相关技术中,在针对语音信号生成说话人日志时,利用训练好的说话人日志模型分别计算语音信号对应的估计说话人类别概率及估计说话人个数概率,并通过估计说话人类别概率确定说话人类别,通过估计说话人个数概率确定说话人个数。
在上述相关技术中,需要分别利用估计说话人类别概率计算第一损失函数值和利用估计说话人个数概率计算第二损失函数值来对说话人日志模型进行训练,导致模型的训练效果不佳,进而导致说话人识别的准确率较低,也即说话人日志生成的准确率较低。
发明内容
本申请提供了一种说话人日志模型的训练方法、装置、设备及存储介质,能够提高说话人日志的生成准确率。所述技术方案如下:
根据本申请的一方面,提供了一种说话人日志模型的训练方法,所述方法包括:
获取样本语音信号的特征序列及真实标签,所述真实标签是指表征真实说话人类别的标签;
根据所述特征序列获取估计吸引子序列,所述估计吸引子序列中的一个吸引子表征一个说话人类别;
将所述特征序列及所述估计吸引子序列输入至所述说话人日志模型中得到估计说话人类别概率,所述估计说话人类别概率是指所述说话人日志模型估计得到的说话人类别的概率;
基于所述估计说话人类别概率及所述真实标签,计算第一损失函数值;
基于所述第一损失函数值对所述说话人日志模型的模型参数进行更新。
根据本申请的一方面,通过所述说话人日志模型的所述特征提取网络中的非负函数对所述语音特征进行特征提取,得到提取特征;
将所述提取特征的取值进行归一化,得到所述样本语音信号的所述特征序列。
根据本申请的一方面,提供了一种说话人识别方法,所述方法包括:
获取语音信号的特征序列;
根据所述特征序列获取估计吸引子序列,所述估计吸引子序列中的一个吸引子表征一个说话人类别;
将所述特征序列及所述估计吸引子序列输入至所述说话人日志模型中得到估计说话人类别概率,所述估计说话人类别概率是指所述说话人日志模型估计得到的说话人类别的概率;
基于所述估计说话人类别概率,确定所述语音信号对应的说话人类别及说话人个数。
根据本申请的一方面,所述说话人日志模型还包括特征提取网络;
获取所述语音信号的语音特征,所述语音特征为所述语音信号的时频特征数据;
通过所述特征提取网络对所述语音特征进行特征提取,得到所述语音信号的所述特征序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210177866.4/2.html,转载请声明来源钻瓜专利网。





