[发明专利]一种基于人声音色的个性化点唱歌曲推荐方法在审
| 申请号: | 201510859812.6 | 申请日: | 2015-12-02 |
| 公开(公告)号: | CN105575393A | 公开(公告)日: | 2016-05-11 |
| 发明(设计)人: | 吴梅梅;王永滨;李樱;冯爽;安靖 | 申请(专利权)人: | 中国传媒大学 |
| 主分类号: | G10L17/00 | 分类号: | G10L17/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100024 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 人声 音色 个性化 点唱 歌曲 推荐 方法 | ||
1.一种基于人声音色的个性化点唱推荐方法,其特征在于:方法的步骤如下:
步骤一、伴奏人声分离;
步骤二、从人声数据中提取能代表用户音色特征的声学特征量MFCC和LPCC;
步骤三、根据步骤二中提取的声学特征量推荐个性化点唱曲目;
首先将人声音频按音色进行分类,为此构造了一个人声音色分类数据集,将人声音色 分为男声沙哑、男声明亮、女声沙哑、女声明亮、甜美、空灵六大类;
其次基础音色歌曲推荐,分类后包含音频数目最多的类别为用户的基本音色类别,其 它音色类为用户的扩展音色类别;然后计算基本特征类别中所有用户声音样本的平均值作 为用户基本音色模型,然后计算本类中所有待推荐样本与平均值的距离,以此度量歌手和 用户音色相似度;将相似度从大到小排序;
然后扩展音色歌曲推荐,代表用户扩展音色的歌曲数目相对很少,所以这部分推荐可 以直接使用AR策略,为每首扩展音色歌曲在其对应的类别中计算与其他歌曲的相似度,然 后根据相似度从大到小排序;
最后推荐结果合并,假设用户演唱历史中基础音色对应的音频数目为m,扩展音色对应 的音频数目为n,推荐歌曲数目为k,最后按照比例进行推荐结果合并,基础音色推荐结果中 取前Int(k*(m/(m+k)))个,在扩展音色推荐结果中取k-Int(k*(m/(m+k)))个,形成最终推 荐结果集;
步骤四、可扩展性分析;
根据基础音色产生平均值后,产生推荐的过程是代表基础音色平均值的向量和代表扩 展音色的向量与曲库中所有样本向量计算距离的过程,此过程可以分布到多个结点并行计 算,每个结点产生m个推荐样本,再从这m*n个推荐样本中产生m个最优推荐样本作为推荐。
2.根据权利要求1所述的一种基于人声音色的个性化点唱推荐方法,其特征在于:步骤 一中所述的网络演唱系统中可以得到两部分的音频数据,一个是只有伴奏的信号m,另一个 是伴有声音的信号c=s+m′,s表示潜在的原始声音信号,m′表示为s伴奏的背景音乐;通常m 听起来像m′,因此原始声音信号s可以被接近m′的m提取,但是,由于m和m′不能分辨,从c直 接减去m对提取s的用处不大,一种有望成功代替直接提取的解决方法是采用自适应滤波 器,如最小均方或者递归最小二乘,来从m中估算m′;为了计算效率,我们假定m和m′的主要 差别是振幅和相位(或框架间隔),相位差反应了m和m′的不同时,在一份相关的研究中提 出,估算m和c之间音量级的差,然后在m后从c减去m可以用差值补偿;但是,他们的方法不能 解决m和m′振幅和相位不同的问题;自适应滤波器的概念可以通过频域计算实现;双频道信 号首先被分成帧,然后通过快速傅里叶变换法转换为幅度谱;假设Ct={Ct,1,Ct,2,...,Ct,J) 和Mt={Mt,1,Mt,2,...,Mt,J}分别表示伴奏声音频道和只有伴奏频道的第t帧样本幅度谱,其 中J是频率成分的数值;假定Ct=St+M′t,其中St={St,1,St,2,...,St,J)是声音幅度谱,而M′t={M′t,1,M′t,2,...,M′t,J)是背景伴奏的幅度谱,为了找到St,我们可以通过atMt+bt接近M′t, 其中Mt+bt是紧挨着可能与M′t相对应的Mt的第bt帧;而at是反映Mt和M′t之间振幅差的换算系 数,最优bt可以通过在事先预置的可产生最小二乘方误差的范围(±B)内进行挑选找到,即 其中是考虑到的最优振幅换算系数;那么,假设 我们得出以下at的最小二乘误差法答案为相应地,t帧上声音幅度谱可以通过估算出来。
3.根据权利要求1所述的一种基于人声音色的个性化点唱推荐方法,其特征在于:步骤 一中所述的将伴奏和人声分离后,使用人声部分的音频数据去进行演唱者音色分析;每一 个演唱者的人声音频数据中,会既包含语音的文本特征,又包含演唱者音色特征,在文本无 关方式下,我们希望这些特征主要表示的是演唱者的音色特征;最终的目标是得到演唱者 音色模型描述;要想满足上述目标,需要按照如下准则从人声音频数据中对演唱者音色特 征参数进行提取:对局外变量不敏感,能够长期保持稳定,易于测量,与其他特征不相关;通 常很难找到同时满足以上要求的特征,一般通过采取一些折衷措施的方式实现;通过不断 的实验和探索发现,声道频率特性以及激励信号源两者共同作用产生了语音信号,由于激 励信号源经常伴有一些随机性,因而人声的个性特征主要取决于发音声道;因此,可以用能 量、共振峰值、基音频率等参数表示人声音色特征;目前语音识别中常用梅尔倒谱系数与线 性预测倒谱系数来表示说话者的音色特征,两者都采取了将语音从时域变换到倒谱域上的 方式,MFCC通过模拟人耳听觉模型,使用滤波器组对语音信号进行滤波,然后以滤波后的输 出作为声学特征,直接通过快速傅立叶变换将信号转换到频域中;LPCC从人的喉咙构造引 起的发声模型角度出发,利用线性预测编码技术求倒谱系数;在人声音色个性化推荐部分 我们使用12维MFCC,12维MFCC差分和12维LPCC来描述音乐;
MFCC的计算主要分为5个步骤,具体流程如下:
预处理:包括预加重、分帧和加窗函数;
快速傅里叶变换:将信号从时域变换到频域,便于观察信号在各频率分量上的能量分 布特点,如式1所示
X(i,k)=FFT[xi(m)](1)
计算谱线能量:对每一帧FFT后的数据计算谱线的能量,如式2所示
E(i,k)=[X(i,k)]2(2)
计算通过MEL滤波器的能量:将能量谱通过一组三角带通梅尔频率滤波器,并计算在该 MEL滤波器中的能量,在频域中相当于把每帧的能量谱E(i,k)与MEL滤波器的频域响应Hm(k)相乘并相加,如式3所示
计算DCT倒谱:把MEL滤波器的能量取对数后计算DCT,如式4所示
线性预测倒谱参数(LPCC)是线性预测(LPC)在倒谱域中的表示方式,LPC系数可以通过 自相关法求得,该方法可以保证系统的稳定性,并可以得到具有最小相位的声道模型传输 函数如式5所示;
由此可得出语音信号的倒谱和现行预测系数之间的递推关系,如式6所示
或是由LPC通过式7计算得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510859812.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网络教学实时语音分析方法
- 下一篇:语音识别方法和装置





