[发明专利]帕金森声纹语谱图样本扩充方法、装置及计算机存储介质有效

申请号：	201910720986.2	申请日：	2019-08-06
公开（公告）号：	CN110428364B	公开（公告）日：	2022-09-30
发明（设计）人：	王娟;徐志京	申请（专利权）人：	上海海事大学
主分类号：	G06T3/00	分类号：	G06T3/00;G06T7/90;G06V10/774;G10L17/02;G10L17/22;G10L19/02
代理公司：	上海互顺专利代理事务所(普通合伙) 31332	代理人：	成秋丽
地址：	201306 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	帕金森声纹图样扩充方法装置计算机存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种帕金森声纹语谱图样本扩充方法，方法包括：获取包含元音发音的多个音频并进行分割，获得对应的语谱图；根据傅里叶变换，将所获得的语谱图转换为灰度语谱图；将灰度语谱图转换为伪彩色语谱图；根据预设分辨率，将伪彩色语谱图转换为多个图片，并为每个图片分配第一标签和第二标签；将多个图片通过HR‑DCGAN模型进行训练，生成多个图判所对应的训练后图片；获得训练后图片和多个图片的相似度；根据相似度值，逐一判断训练后图片中的每一个图片是否作为帕金森患者语音的扩充样本。此外，本发明还公开了一种帕金森声纹语谱图样本扩充装置及计算机存储介质。

技术领域

本发明涉及语音处理技术领域，特别是涉及一种帕金森声纹语谱图样本扩充方法、装置及计算机存储介质。

背景技术

声纹作为人类重要的生物特征，帕金森病(Parkinson’s Disease，PD)属于常见的神经系统退行性疾病，90％的PD患者早期症状中存在声带损伤，所以声纹可应用于帕金森等疾病的判别。但现存的患者声纹数据集及样本偏少，且样本获取困难，采用深度学习算法处理时容易过度拟合，达不到好的效果。因此，采用深度学习算法诊断帕金森病时，样本扩充是亟待解决的问题。

将音频信号转换为语谱图，可利用神经网络识别并提取与研究目标相关的重要声纹特征以自动对图像进行分类。随着神经网络层数的加深，在分类和识别领域表现出强大的性能，深度卷积神经网络作为一种数据驱动模型，依赖大量样本发挥其最大效能。由于样本偏少，众多学者未利用深度卷积神经网络的方法进行PD识别。

为了扩充样本，传统图像样本的扩充方法包括图像的裁剪、翻转、平移、缩放和对比度变换等，会改变或者破坏语谱图中的声纹特征信息，影响分类识别准确率，不适用于该类别的样本扩充。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种帕金森声纹语谱图样本扩充方法及装置，旨在通过DCGAN模型生成训练后样本，并通过训练后样本与原样本进行相似度计算，从而从训练后样本中选择样本进行扩充，解决了现有技术中破坏语谱图声纹特征信息影响分类准确率的问题，然后将扩展的样本放入声纹语谱图样本库，以应用到帕金森患者的识别工作中，提高小样本下的PD患者识别准确率。

为实现上述目的及其他相关目的，本发明提供一种帕金森声纹语谱图样本扩充方法，所述方法包括：

获取包含元音发音的多个音频并进行分割，获得对应的语谱图；

根据傅里叶变换，将所获得的语谱图转换为灰度语谱图；

将所述灰度语谱图转换为伪彩色语谱图；

根据预设分辨率，将所述伪彩色语谱图转换为多个图片，并为每个图片分配第一标签和第二标签，其中，第一标签为帕金森病人对应的语谱标签，第二标签为非帕金森病人对应的语谱标签；

将所述多个图片通过HR-DCGAN模型进行训练，生成所述多个图判所对应的训练后图片；

获得所述训练后图片和所述多个图片的相似度；

根据所述相似度值，逐一判断所述训练后图片中的每一个图片是否作为帕金森患者语音的扩充样本。

本发明的一种实现方式中，所述获取包含元音发音的多个音频并进行分割，获得对应的语谱图的步骤，包括：

获取连续三次元音发音，且发音持续时间为6s的多个音频；

将所述音频切割为3个2s的音频片段；

对每一个音频判断进行预处理，获得语谱图，其中，所述预处理包括预加重处理、分帧、加窗和端点检测。