[发明专利]一种基于自动编码深度置信网络的高质量说话人识别方法有效
| 申请号: | 201710088300.3 | 申请日: | 2017-02-17 |
| 公开(公告)号: | CN107039036B | 公开(公告)日: | 2020-06-16 |
| 发明(设计)人: | 李燕萍;刘俊坤;凌云志 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/07;G10L15/08;G10L15/16;G10L17/04;G10L17/14;G10L17/18 |
| 代理公司: | 江苏海越律师事务所 32402 | 代理人: | 唐小红 |
| 地址: | 210003 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 自动 编码 深度 置信 网络 质量 说话 识别 方法 | ||
1.一种基于自动编码深度置信网络的高质量说话人识别方法,其特征在于,包括说话人模型训练阶段和说话人识别阶段,该方法包括以下步骤:
(1)模型训练阶段:对不同说话人语音信号进行预处理,提取语音特征,得到每个人的特征向量,并对特征向量以不同人为类别,进行标记;
(2)用步骤(1)中所有说话人特征数据对深度置信网络进行有监督的训练,得到自动编码深度置信网络模型;
(3)每个人未标注特征数据依次经过步骤(2)训练完成的自动编码深度置信网络进行编码重构得到的输出作为矢量量化模型输入,训练矢量量化模型;
(4)模型识别阶段:待识别语音的特征经过自动编码深度置信网络编码重构,输入矢量量化模型进行识别。
2.根据权利要求1所述方法,其特征在于,步骤(1)得到每个人的特征向量内容是:提取说话人语音40维MFCC参数,除去代表直流分量的第一维数据,然后每帧进行前后两帧拼接,形成195维的特征向量。
3.根据权利要求1所述方法,其特征在于,步骤(2)中:将多层受限波尔兹曼机进行堆叠,构成深度置信网络;训练数据经第一层受限波尔兹曼机可视层输入,对第一层网络进行训练,第一层网络的输出作为第二层输入进行下一层的训练,按照以上方式构建深度置信网络模型。
4.根据权利要求1所述方法,其特征在于,步骤(2)中:构建完成深度置信网络后,利用每层训练的参数构建其对称网络,经过反向微调,最终构建出自动编码深度置信网络模型。
5.根据权利要求1所述方法,其特征在于,步骤(3)和步骤(4)中:说话人的多帧195维特征数据经过自动编码深度置信网络编码重构后输出同样为195维特征向量。
6.根据权利要求1所述方法,其特征在于,步骤(3)和步骤(4)中:采用矢量量化模型作为系统的最终识别器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710088300.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型防菌培养皿
- 下一篇:一种大规模细胞培养多联袋





