[发明专利]一种基于余弦相似度的动态音声特征提取方法有效
| 申请号: | 201910430464.9 | 申请日: | 2019-05-22 |
| 公开(公告)号: | CN110197657B | 公开(公告)日: | 2022-03-11 |
| 发明(设计)人: | 左毅;艾佳琪;李铁山;陈俊龙;肖杨;贺培超;刘君霞;马赫 | 申请(专利权)人: | 大连海事大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/24 |
| 代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
| 地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 余弦 相似 动态 特征 提取 方法 | ||
本发明公开了一种基于余弦相似度的动态音声特征提取方法,包括以下步骤:S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,采用窗口函数将语音信号分解为一定长度的帧;S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换(IDCT‑Cepstrum Coefficient)倒谱系数;S3:对语音的频域信号进行相邻维之间的余弦相似度计算;S4:找到余弦相似度的两列最大相邻维进行合并;S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征;S6:将语音特征以直方图形式表示。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于余弦相似度的动态音声特征提取方法。
背景技术
语音识别由语音特征提取、语音识别模型建立和说话人识别三个部分组成。其中语音特征提取在整个说话人识别过程中至关重要,有效地提取出表示说话人本质特点的语音特征将使得模型的语音分类识别更为准确,识别率更高。目前常用的特征有MFCC(梅尔频率倒谱系数)、Fbank(Filterbank feature)、PLP(Linear Predictive Coding)等,目前这一领域使用MFCC作为语音特征的应用较为多见。
虽然MFCC是最受欢迎的音声特征表现,但它有两个主要的缺点。第一,它们是从10ms到50ms的窗函数估计的,因此不能捕获信号中的长期特征。第二,MFCC认为语音信号的相邻帧间相互独立,这样导致特征提取过程中丢失了语音信号的动态特征。本发明介绍的新方法是以动态结合方法获得说话人的频率分布,不仅抗噪声干扰能力强,还能体现出语音信号的动态特性和语音信号中所含有的类别信息。
发明内容
根据现有语音特征提取过程中存在的问题,本发明公开了一种基于余弦相似度的动态音声特征提取方法,具体包括以下步骤:
S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,采用窗口函数将语音信号分解为一定长度的帧;
S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换(IDCT-Cepstrum Coefficient)倒谱系数;
S3:对语音的频域信号进行相邻维之间的余弦相似度计算;
S4:找到余弦相似度最大的两列相邻维进行合并;
S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;
S6:将语音特征向量以直方图形式表示。
进一步的,采用如下算法获取每帧语音信号的320维离散余弦反变换倒谱系数(IDCT-Cepstrum Coefficient):
C(q)=IDCT{log|DCT{x(k)}|} q=1…,M-1 (1)
其中:x(k)为时域信号,C(q)为倒谱系数,C(q)就是得到的320维的IDCT CepstrumCoefficient语音特征。
进一步的,采用余弦公式(2)计算相邻维的特征向量之间的相似度,其中余弦相似度计算公式如下:
其中:νi代表第i维特征向量,νj代表第j维特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910430464.9/2.html,转载请声明来源钻瓜专利网。





