[发明专利]一种基于人声音色的个性化点唱歌曲推荐方法在审

申请号：	201510859812.6	申请日：	2015-12-02
公开（公告）号：	CN105575393A	公开（公告）日：	2016-05-11
发明（设计）人：	吴梅梅;王永滨;李樱;冯爽;安靖	申请（专利权）人：	中国传媒大学
主分类号：	G10L17/00	分类号：	G10L17/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	100024 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于人声音色个性化点唱歌曲推荐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于人声音色的个性化点唱推荐方法，其特征在于：方法的步骤如下：

步骤一、伴奏人声分离；

步骤二、从人声数据中提取能代表用户音色特征的声学特征量MFCC和LPCC；

步骤三、根据步骤二中提取的声学特征量推荐个性化点唱曲目；

首先将人声音频按音色进行分类，为此构造了一个人声音色分类数据集，将人声音色分为男声沙哑、男声明亮、女声沙哑、女声明亮、甜美、空灵六大类；

其次基础音色歌曲推荐，分类后包含音频数目最多的类别为用户的基本音色类别，其它音色类为用户的扩展音色类别；然后计算基本特征类别中所有用户声音样本的平均值作为用户基本音色模型，然后计算本类中所有待推荐样本与平均值的距离，以此度量歌手和用户音色相似度；将相似度从大到小排序；

然后扩展音色歌曲推荐，代表用户扩展音色的歌曲数目相对很少，所以这部分推荐可以直接使用AR策略，为每首扩展音色歌曲在其对应的类别中计算与其他歌曲的相似度，然后根据相似度从大到小排序；

最后推荐结果合并，假设用户演唱历史中基础音色对应的音频数目为m，扩展音色对应的音频数目为n，推荐歌曲数目为k，最后按照比例进行推荐结果合并，基础音色推荐结果中取前Int(k*(m/(m+k)))个，在扩展音色推荐结果中取k-Int(k*(m/(m+k)))个，形成最终推荐结果集；

步骤四、可扩展性分析；

根据基础音色产生平均值后，产生推荐的过程是代表基础音色平均值的向量和代表扩展音色的向量与曲库中所有样本向量计算距离的过程，此过程可以分布到多个结点并行计算，每个结点产生m个推荐样本，再从这m*n个推荐样本中产生m个最优推荐样本作为推荐。

2.根据权利要求1所述的一种基于人声音色的个性化点唱推荐方法，其特征在于：步骤一中所述的网络演唱系统中可以得到两部分的音频数据，一个是只有伴奏的信号m，另一个是伴有声音的信号c＝s+m′，s表示潜在的原始声音信号，m′表示为s伴奏的背景音乐；通常m 听起来像m′，因此原始声音信号s可以被接近m′的m提取，但是，由于m和m′不能分辨，从c直接减去m对提取s的用处不大，一种有望成功代替直接提取的解决方法是采用自适应滤波器，如最小均方或者递归最小二乘，来从m中估算m′；为了计算效率，我们假定m和m′的主要差别是振幅和相位(或框架间隔)，相位差反应了m和m′的不同时，在一份相关的研究中提出，估算m和c之间音量级的差，然后在m后从c减去m可以用差值补偿；但是，他们的方法不能解决m和m′振幅和相位不同的问题；自适应滤波器的概念可以通过频域计算实现；双频道信号首先被分成帧，然后通过快速傅里叶变换法转换为幅度谱；假设C_t＝{C_t，1，C_t，2，...，C_t，J) 和M_t＝{M_t，1，M_t，2，...，M_t，J}分别表示伴奏声音频道和只有伴奏频道的第t帧样本幅度谱，其中J是频率成分的数值；假定C_t＝S_t+M′_t，其中S_t＝{S_t，1，S_t，2，...，S_t，J)是声音幅度谱，而M′_t＝{M′_t，1，M′_t，2，...，M′_t，J)是背景伴奏的幅度谱，为了找到S_t，我们可以通过a_tM_t+b_t接近M′_t，其中M_t+b_t是紧挨着可能与M′_t相对应的M_t的第b_t帧；而a_t是反映M_t和M′_t之间振幅差的换算系数，最优b_t可以通过在事先预置的可产生最小二乘方误差的范围(±B)内进行挑选找到，即其中是考虑到的最优振幅换算系数；那么，假设我们得出以下a_t的最小二乘误差法答案为相应地，t帧上声音幅度谱可以通过估算出来。

3.根据权利要求1所述的一种基于人声音色的个性化点唱推荐方法，其特征在于：步骤一中所述的将伴奏和人声分离后，使用人声部分的音频数据去进行演唱者音色分析；每一个演唱者的人声音频数据中，会既包含语音的文本特征，又包含演唱者音色特征，在文本无关方式下，我们希望这些特征主要表示的是演唱者的音色特征；最终的目标是得到演唱者音色模型描述；要想满足上述目标，需要按照如下准则从人声音频数据中对演唱者音色特征参数进行提取：对局外变量不敏感，能够长期保持稳定，易于测量，与其他特征不相关；通常很难找到同时满足以上要求的特征，一般通过采取一些折衷措施的方式实现；通过不断的实验和探索发现，声道频率特性以及激励信号源两者共同作用产生了语音信号，由于激励信号源经常伴有一些随机性，因而人声的个性特征主要取决于发音声道；因此，可以用能量、共振峰值、基音频率等参数表示人声音色特征；目前语音识别中常用梅尔倒谱系数与线性预测倒谱系数来表示说话者的音色特征，两者都采取了将语音从时域变换到倒谱域上的方式，MFCC通过模拟人耳听觉模型，使用滤波器组对语音信号进行滤波，然后以滤波后的输出作为声学特征，直接通过快速傅立叶变换将信号转换到频域中；LPCC从人的喉咙构造引起的发声模型角度出发，利用线性预测编码技术求倒谱系数；在人声音色个性化推荐部分我们使用12维MFCC，12维MFCC差分和12维LPCC来描述音乐；

MFCC的计算主要分为5个步骤，具体流程如下：

预处理：包括预加重、分帧和加窗函数；

快速傅里叶变换：将信号从时域变换到频域，便于观察信号在各频率分量上的能量分布特点，如式1所示

X(i，k)＝FFT[x_i(m)](1)

计算谱线能量：对每一帧FFT后的数据计算谱线的能量，如式2所示

E(i，k)＝[X(i，k)]²(2)

计算通过MEL滤波器的能量：将能量谱通过一组三角带通梅尔频率滤波器，并计算在该 MEL滤波器中的能量，在频域中相当于把每帧的能量谱E(i，k)与MEL滤波器的频域响应H_m(k)相乘并相加，如式3所示

S(i,m)=Σk=0N-1E(i,k)Hm(k),0≤m<M---(3)]]>