[发明专利]一种说话者确认方法及系统有效
申请号: | 202110496856.2 | 申请日: | 2021-05-07 |
公开(公告)号: | CN113345444B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 陈增照;郑秋雨;何秀玲;戴志诚;张婧;孟秉恒;李佳文;吴潇楠;朱胜虎 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/04;G10L17/02;G10L17/08;G06N3/04;G06N3/08 |
代理公司: | 武汉华之喻知识产权代理有限公司 42267 | 代理人: | 邓彦彦;廖盈春 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 确认 方法 系统 | ||
1.一种说话者确认方法,其特征在于,包括如下步骤:
对说话者的音频信息进行预处理,将所述音频信息转换为预设格式的数据;
将说话者音频信息对应的预设格式的数据输入到训练好的基于空间注意力机制的深度嵌套残差神经网络,以得到帧级别的说话者向量;所述基于空间注意力机制的深度嵌套残差神经网络包括:四层每层包含两个嵌套残差块的嵌套残差神经网络和空间注意力机制;在嵌套残差神经网络之后引入空间注意力机制,所述空间注意力机制基于空间维度在注意力模块中引入平均池化和最大池化,并将两部分池化结果合并,以保留有用信息减少参数规模,以及在注意力模块的激活层中使用sigmoid函数,以获得帧级别的说话者向量;
基于所述帧级别的说话者向量生成话语级别的说话者向量,并计算所述话语级别的说话者向量和目标说话者向量的余弦相似度,以判断所述说话者是否为目标说话者;所述目标说话者向量是预先获取的。
2.根据权利要求1所述的说话者确认方法,其特征在于,所述对说话者的音频信息进行预处理,将所述音频信息转换为预设格式的数据,具体为:
将说话者的WAV格式音频文件采用音频转换技术转换为flac格式文件,将flac格式文件进行预处理,得到包含说话者全部信息的npy格式数据。
3.根据权利要求1所述的说话者确认方法,其特征在于,每个嵌套残差块中包含两个子残差块,每个子残差块包含两个单元,每个单元是一个构造块;每两个嵌套残差块的前面放置一个卷积层;
两个嵌套的子残差块实现堆叠功能,具体公式为:
H1(x)=F1(x)+x
H2(x)=F2(x)+H1(x)
H(x)=H2(x)+x
其中,x表示第一个嵌套残差块的输入数据,F1(x)表示嵌套残差块中第一个子残差块的输出,H1(x)表示F1(x)和x的结合数据,F2(x)表示嵌套残差块中第二个子残差块的输出,H2(x)表示F2(x)和H1(x)的结合数据,H(x)表示两个嵌套的残差块的输出。
4.根据权利要求1所述的说话者确认方法,其特征在于,在嵌套残差块之后引入空间注意力机制,以及在注意力模块的激活层中使用sigmoid函数,以获得帧级别的说话者向量,具体公式为:
F″=f{avg_pool(V),max_pool(V)}
F′=σ(F″)
F=Multiply(V,F′)
其中,V表示经过嵌套残差神经网络输出的说话者向量,avg_pool表示平均池化操作,max_pool表示最大池化操作,f{}表示把两个池化操作的结果进行合并得到新的说话者向量F″;F′表示对F″加激活函数后得到的说话者向量;F表示帧级别的说话者向量,Multiply表示加乘操作。
5.根据权利要求1至4任一项所述的说话者确认方法,其特征在于,所述计算所述话语级别的说话者向量和目标说话者向量的余弦相似度,以判断所述说话者是否为目标说话者,具体为:
对所述余弦相似度的概率值设置阈值,当所述余弦相似度的概率值大于所述阈值时,则判断所述说话者为目标说话者,否则判断所述说话者不是目标说话者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110496856.2/1.html,转载请声明来源钻瓜专利网。