[发明专利]基于样本量的声纹聚类方法、装置、设备及存储介质有效
申请号: | 201910880452.6 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110782879B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 冯晨;王健宗;彭俊清 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L25/24 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 样本 声纹 方法 装置 设备 存储 介质 | ||
本发明提供一种基于样本量的声纹聚类方法、装置、设备及存储介质,即所述处理器将所述待聚类声纹样本集存储至所述缓存模块,并判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;若为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;基于所述目标声纹聚类模型中的训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。本发明对不同规模的样本量采用不同的聚类模型,并通过分区聚类缩短了大样本量的待聚类声纹样本集的聚类时间,提升了聚类效果。
技术领域
本发明涉及数据处理领域,尤其涉及一种基于样本量的声纹聚类方法、装置、设备及计算机可读存储介质。
背景技术
聚类是一种重要的无监督机器学习数据分析方法,声纹聚类是指从多个无标签的声纹样本中通过聚类算法判断出这些声纹样本由几个独立用户提供,即对多个无标签的声纹样本按其特征聚类。现有的声纹聚类方法,均是对需要聚类的声纹样本集直接采用聚类算法聚类,从而在对样本量大的样本集聚类时,不仅计算耗时久而且聚类效果不理想。因此,如何解决现有声纹聚类方法聚类效率低下的技术问题,是目前亟需解决的问题。
发明内容
本发明的主要目的在于提供一种基于样本量的声纹聚类方法、装置、设备及计算机可读存储介质,旨在解决现有声纹聚类方法聚类效率低下的技术问题。
为实现上述目的,本发明提供一种基于样本量的声纹聚类方法,所述基于样本量的声纹聚类方法应用于所述基于样本量的声纹聚类系统,所述声纹聚类系统包括缓存模块、存储模块以及处理器,所述基于样本量的声纹聚类方法包括以下步骤:
所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;
若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。
可选地,所述处理器在接收到用户端发送的待聚类声纹样本集的步骤之后,还包括:
对所述待聚类声纹样本集进行数据预处理和特征提取,并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分;
所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分,确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector,并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。
可选地,所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果的步骤具体包括:
所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类,并输出所述待聚类声纹样本的聚类结果。
可选地,所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间的步骤之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910880452.6/2.html,转载请声明来源钻瓜专利网。