[发明专利]基于复数谱的语音抑郁水平检测方法及其系统在审
| 申请号: | 202210094644.6 | 申请日: | 2022-01-26 |
| 公开(公告)号: | CN114627855A | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 范存航;汪锦勤;吕钊;李太豪;裴冠雄 | 申请(专利权)人: | 之江实验室;安徽大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L19/08;G10L25/06;G10L25/51;G10L25/63 |
| 代理公司: | 合肥市上嘉专利代理事务所(普通合伙) 34125 | 代理人: | 李璐 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 复数 语音 抑郁 水平 检测 方法 及其 系统 | ||
1.一种基于复数谱的语音抑郁水平检测方法,其特征在于,包括以下步骤:
S1:提取原始语音波形的复数谱,作为自动语音抑郁水平预测的输入特征;
S2:采用深层语音特征提取器对特征的通道之间的相互依赖性建模,获取区分性声学特征;
S3:用两层卷积神经网络将频率信道压缩成一维,获取只有时间维度的深度语音特征;
S4:采用注意时间池获取低维语音表征的长期相关性,并根据注意机制动态选择更重要的信息,获得相对应的预测结果。
2.根据权利要求1所述的基于复数谱的语音抑郁水平检测方法,其特征在于,步骤S1的具体步骤包括:
S101:利用短时傅里叶变换STFT将时域语音信号转换为时频域:
Real[t,f]+i*Imag[t,f]=STFT(x[k]) (1)
其中,x[k]表示时域中的语音信号,k是语音信号的时间索引,Real和Imag是STFT的相应实部和虚部,t是时间帧数的索引,f是频率单元的索引;
S102:将STFT的实数部分和虚数部分拼接在一起,得到需要的复数谱特征,表示为:
其中,stack表示拼接操作,F和T分别为频率和时间帧数。
3.根据权利要求1所述的基于复数谱的语音抑郁水平检测方法,其特征在于,步骤S2的具体步骤包括:
S201:首先利用全局池对输入向量进行压缩,从而获得全局信息嵌入:
zc=FGP(uc) (3)
其中,uc是第c个通道输入向量U=[u1,u2,......,uc],FGP表示GP操作,zc是Z的第c个元素,Z表示全局信息;
S202:应用两个完全连接层,通过挤压操作充分利用聚合的信息,并完全捕获通道依赖:
S=σ(W2δ(W1Z)) (4)
其中,W1和W2是这两个FC层的权重矩阵,δ和σ分别表示ReLU和sigmoid函数,S表示根据重要性赋予的通道权重;
S203:缩放操作获取SE计算块的最终输出:
其中,Fscale表示通道乘法。
4.根据权利要求1所述的一种基于复数谱的语音抑郁水平检测方法,其特征在于,步骤S3的具体步骤包括:
其中,V=[V1,V2,......,VT′]表示深度语音特征,T′表示在深层语音特征提取器之后的时间维度,D表示Vi的维度。
5.根据权利要求1所述的一种基于复数谱的语音抑郁水平检测方法,其特征在于,步骤S4的具体步骤包括:
V′=W[concate{μ(αiVi);ζ(αiVi)}] (9)
其中,Vi表示深度语音特征的一组局部描述符,V′表示单个全局描述符,μ表示均值,ζ表示方差,W表示线性投影。
6.一种基于复数谱的语音抑郁水平检测系统,其特征在于,包括:
语音特征输入模块,用于提取原始语音波形的复数谱,作为SDLP的输入特征;
复数谱特征处理模块,用于采用深层语音特征提取器对特征的通道之间的相互依赖性建模,获取区分性声学特征;用两层卷积神经网络将频率信道压缩成一维,获取只有时间维度的深度语音特征;
注意时间池模块,用于采用注意时间池获取低维语音表征的长期相关性,并根据注意机制动态选择更重要的信息,获得相对应的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;安徽大学,未经之江实验室;安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210094644.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种家居稳定互联的远程智能系统
- 下一篇:智能化视频人物替换方法、系统





