[发明专利]同时优化深度表征学习与说话人类别估计的说话人聚类方法有效
| 申请号: | 201911239006.3 | 申请日: | 2019-12-06 |
| 公开(公告)号: | CN111161744B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 李艳雄;王武城;刘名乐;江钟杰;陈昊 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/18;G10L17/04;G06N3/0455;G06N3/0464;G06N3/084 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 蒋剑明 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 同时 优化 深度 表征 学习 说话 人类 估计 人聚类 方法 | ||
1.一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,包括以下步骤:
S1、对读入的待聚类语音样本进行预处理,提取I-vector特征;
S2、训练卷积自编码网络并从各语音样本提取深度表征特征;
S3、根据各语音样本的深度表征特征构造初始类;
S4、根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架;
S5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本;
其中,所述的步骤S1中对读入的待聚类语音样本进行预处理,提取I-vector特征的过程如下:
S1.1、将信号通过一阶高通滤波器进行预加重,并使用汉明窗进行分帧;
S1.2、对经过预处理的时域信号进行傅里叶变换,得到频域信号;
S1.3、对频域信号进行梅尔滤波并取对数能量谱,将对数能量谱经过离散余弦变换得到梅尔频率倒谱系数,即MFCC特征;
S1.4、第t帧语音样本的D维MFCC特征xt对应的似然概率用M个高斯分量加权表示:
其中ωm表示第m个高斯分量的权重,pm(xt)表示高斯混合模型第m个高斯分量的分布函数:
其中μm和Σm分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵,对于所有语音帧X=[x1,...,xT],输出概率为:
用期望最大化算法训练高斯混合模型,获得模型参数
λ={ωm,μm,Σm}m=1,2,...,M;
S1.5、基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量,采用期望最大化算法对T矩阵进行估计,并根据下面的公式得到I-vector特征:
M(j)=m+Tw(j),
其中,M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量,m是高斯混合模型的均值超矢量,w(j)则是第j个语音样本的I-vector特征矢量。
2.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S2中训练卷积自编码网络并从各语音样本提取深度表征特征的过程如下:
S2.1、各语音样本表示为[v1,v2,...,vN],提取出的I-vector特征为其中,是K维的I-vector矢量,将N个K维的I-vector特征矢量作为卷积自编码网络的输入,为训练去噪自编码网络,随机选取一定比例的编码器输出层的神经元并使之失活,编码器各层的输出定义为:
其中,是第i个语音样本在编码器第h层的深度表征特征,和是编码器第h层的权重和偏置,Dr[·]是随机失活操作,ψ(·)是激活函数,这里使用修正线性整流单元,定义为:
ψ(x)=max(0,x),
经编码、解码之后的输出记为自编码网络的输入和输出是维度相同的矩阵,自编码网络的训练误差定义为输入和输出之间的均方误差:
在训练误差收敛之后退出训练,并保存联合优化框架的参数;
S2.2、去掉随机失活操作,将各语音样本的I-vector特征矢量输入训练完毕的自编码网络,在编码器的终端输出对应的深度表征特征。
3.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S3中,根据各语音样本的深度表征特征构造初始类的过程如下:
S3.1、将各语音样本的深度表征特征都作为一类,并计算每两个类之间的欧式距离;
S3.2、寻找各个类之间距离最近的两个类,把它们归成一类,并取上述两个类中的深度表征特征的均值作为合并后的新类;
S3.3、重新计算上述新类和各个旧类之间的欧式距离;
S3.4、重复S3.2和S3.3,直到当前聚类类别数等于给定类别数,获得初始类别估计的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911239006.3/1.html,转载请声明来源钻瓜专利网。





