[发明专利]基于深度神经网络的哼唱检索法在审
| 申请号: | 201811588112.8 | 申请日: | 2018-12-25 |
| 公开(公告)号: | CN111368129A | 公开(公告)日: | 2020-07-03 |
| 发明(设计)人: | 王建荣;向坤;于健;喻梅;于瑞国;徐天一;赵满坤;高洁;薛寒钰 | 申请(专利权)人: | 天津大学青岛海洋技术研究院 |
| 主分类号: | G06F16/632 | 分类号: | G06F16/632;G06N3/04 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 266200 山东省青岛市鳌*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 神经网络 哼唱 检索 | ||
基于深度神经网络的哼唱检索法,使用深度神经网络‑动态时间规整方法,很好地解决诸如语言建模这样的问题,卷积神经网络应用于声学建模的自动语音识别,在辨识准确率和速度上有一定的提升;动态时间规整方法上介绍基于GPU的动态时间规划算法的提速以及在提速的条件下针对音高不同问题的解决方案。
技术领域
本发明属于数字信号处理领域,尤其涉及一种基于深度神经网络的哼唱检索法。
背景技术
目前以哼唱搜索为主的研究包括了:音高追踪(Pitch Tracking)和辨识算法两个部分。
1 音高追踪(Pitch Tracking)
计算音高的方法有很多,主要分为基于时域(Time Domain)和频域 (FrequencyDomain )两大类,其中时域的方法主要有 自相 关 函 数 法 (AutocorrelationFunction,ACF)、 归一化平方差函数法(Normalized Squared Difference Function,NSDF)、 短时平均幅度差函数法(Average Magnitude Difference Function,AMDF)、 简易反向滤波跟踪法(Simplified Inverse Filter Tracking,SIFT),而频域方法主要包括调和乘积谱方法(Harmonic Product Spectrum,HPS)和倒频谱方法(Cepstrum)。
2 辨识算法
动态时间规整(Dynamic Time Warping,DTW)算法
动态时间规整(Dynamic Time Warping,DTW)是一种以动态规划(DynamicProgramming)为基础,找出两个向量之间的最短路径的方法。该算法是在上世纪 60 年代由日本学者提出的,算法的提出是为了解决语音信号所具有的很强的随机性,也就是说,在不同的说话者进行发音时,由于其具有不同的发音习惯,且发音时周围的环境的不同,甚至说话者的心情的不同都会导致说话者的发音的持续时间的长短存在明显的伸缩的现象。因此在语音识别时,首先必须要进行的操作就是对语音信号进行时间规整。
一次正确的发音应该包含构成这个发音的全部的音素和正确的音素的连接次序。其中各音素的持续时间的长短与因素本身以及说话者的状态有关。为了提高辨识率,克服发同一个音而发音的时间长短不一的问题,需要采用对输入语音信号进行伸长或缩短直到与标准的语音模式的长度一致。这个完整的过程即称为时间规整。
截至目前为止,DTW 仍是最能够正确辨识的方法之一,但是其缺点也很明显,一是辨识速度很慢且对内存的需求很大,二是不能够有效的解决音调不同给辨识带来的问题。
目前的哼唱搜索技术使用动态时间规整算法作为首选算法,不能够有效的解决音调不同给辨识带来的问题,辨识速度很慢且对内存的需求很大。传统的动态时间规划算法具有很高的匹配率,但是其性能上的缺陷,和音调不同带来的阻碍,始终是动态时间规划算法的所需面临的问题。
发明内容
针对现有技术存在的问题,本发明基于深度神经网络的哼唱检索法,使用深度神经网络-动态时间规整方法,很好地解决诸如语言建模这样的问题,卷积神经网络应用于声学建模的自动语音识别,在辨识准确率和速度上有一定的提升。动态时间规整方法上介绍基于GPU的动态时间规划算法的提速以及在提速的条件下针对音高不同问题的解决方案。
基于深度神经网络的哼唱检索法,具体内容如下:
1 MIDI资料库音频资料解析
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学青岛海洋技术研究院,未经天津大学青岛海洋技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811588112.8/2.html,转载请声明来源钻瓜专利网。





