[发明专利]具备未知类别内部划分能力的声纹开集识别方法在审
申请号: | 202011566172.7 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112735435A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 庄旭;袁鑫;尹可鑫;甘翼;丛迅超 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18;G10L17/20;G10L17/22 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具备 未知 类别 内部 划分 能力 声纹 识别 方法 | ||
本发明公开一种具备未知类别内部划分能力的声纹开集识别方法,具有较高的准确率和较好的适用性。本发明通过下述计算方案实现:将不同说话人的语音数据作为声纹开集识别系统的输入,逐条计算语音数据的梅尔频率倒谱系数特征,采用广义端到端损失函数训练一个基于时序的音频编码模块GE2E,有效消除说话者之间歧义;通过GE2E输出的音频数据编码,结合多元高斯模型,训练概率阶梯模型CGDL,判断任意音频数据是否属于已知类别,对判定为已知类别的音频数据进行分类;对CGDL判别为未知类别的音频数据,构造并训练无界交错状态神经网络,在线聚类音频数据,得到的聚类数目即是说话人的数目,某一聚类中的所有音频数据从属同一说话人。
技术领域
本发明属于声纹开集识别技术领域,特别是涉及一种具备未知类别内部划分能力的声纹开集识别方法。
背景技术
随着信息技术的发展,人们对身份识别技术的需求越来越多,身份识别在信息安全领域发挥着越来越重要的作用,对其安全可靠性的要求也越来越严格。基于传统密码认证的身份识别技术在实际信息网络应用中已经暴露出许多不足之处,而基于生物特征辨别的身份识别技术以其特有的稳定性,唯一性和方便性,展现出极大的优越性,已成为身份识别领域中的重要研究方向。声纹识别(Voiceprint Recognition,VPR),也称为说话人识别(Speaker Recognition),说话人识别技术是生物识别技术的一种,该技术的重点是根据说话人之间个性特征的差异来区分说话人。说话人识别技术按任务类型分为说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策等。不同的任务和应用会使用不同的声纹识别技术,不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是一个的“训练”或“学习”过程。说话人识别技术按识别方式可分“与文本有关”和“与文本无关”两种。文本有关型的声纹识别系统要求系统录制被判别人一定数量的规定文本内容的声音,只要判别人发出相关内容的声音就可以实现判别功能。文本无关型的声纹识别系统则不规定说话人的发音内容,只要系统中录有说话人的声音,就能够识别是否为该说话人。目前与文本无关的闭集说话人识别技术已经取得了较高的识别率,但是对于开集识别而言,识别率仍然较低。且对判定为未知类的语音数据,未进一步确定说话人数目及其从属与哪一位说话人。尽管至今已有许多介绍声纹识别技术及应用的相关论文发表,但是这些论文大多是对“闭集”的识别效果提升,较少考虑“开集”场景下的声纹识别,并且对于未对未知类做进一步细分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566172.7/2.html,转载请声明来源钻瓜专利网。