[发明专利]一种基于人声音色的个性化点唱歌曲推荐方法在审

专利信息
申请号: 201510859812.6 申请日: 2015-12-02
公开(公告)号: CN105575393A 公开(公告)日: 2016-05-11
发明(设计)人: 吴梅梅;王永滨;李樱;冯爽;安靖 申请(专利权)人: 中国传媒大学
主分类号: G10L17/00 分类号: G10L17/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 100024 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 人声 音色 个性化 点唱 歌曲 推荐 方法
【权利要求书】:

1.一种基于人声音色的个性化点唱推荐方法,其特征在于:方法的步骤如下:

步骤一、伴奏人声分离;

步骤二、从人声数据中提取能代表用户音色特征的声学特征量MFCC和LPCC;

步骤三、根据步骤二中提取的声学特征量推荐个性化点唱曲目;

首先将人声音频按音色进行分类,为此构造了一个人声音色分类数据集,将人声音色 分为男声沙哑、男声明亮、女声沙哑、女声明亮、甜美、空灵六大类;

其次基础音色歌曲推荐,分类后包含音频数目最多的类别为用户的基本音色类别,其 它音色类为用户的扩展音色类别;然后计算基本特征类别中所有用户声音样本的平均值作 为用户基本音色模型,然后计算本类中所有待推荐样本与平均值的距离,以此度量歌手和 用户音色相似度;将相似度从大到小排序;

然后扩展音色歌曲推荐,代表用户扩展音色的歌曲数目相对很少,所以这部分推荐可 以直接使用AR策略,为每首扩展音色歌曲在其对应的类别中计算与其他歌曲的相似度,然 后根据相似度从大到小排序;

最后推荐结果合并,假设用户演唱历史中基础音色对应的音频数目为m,扩展音色对应 的音频数目为n,推荐歌曲数目为k,最后按照比例进行推荐结果合并,基础音色推荐结果中 取前Int(k*(m/(m+k)))个,在扩展音色推荐结果中取k-Int(k*(m/(m+k)))个,形成最终推 荐结果集;

步骤四、可扩展性分析;

根据基础音色产生平均值后,产生推荐的过程是代表基础音色平均值的向量和代表扩 展音色的向量与曲库中所有样本向量计算距离的过程,此过程可以分布到多个结点并行计 算,每个结点产生m个推荐样本,再从这m*n个推荐样本中产生m个最优推荐样本作为推荐。

2.根据权利要求1所述的一种基于人声音色的个性化点唱推荐方法,其特征在于:步骤 一中所述的网络演唱系统中可以得到两部分的音频数据,一个是只有伴奏的信号m,另一个 是伴有声音的信号c=s+m′,s表示潜在的原始声音信号,m′表示为s伴奏的背景音乐;通常m 听起来像m′,因此原始声音信号s可以被接近m′的m提取,但是,由于m和m′不能分辨,从c直 接减去m对提取s的用处不大,一种有望成功代替直接提取的解决方法是采用自适应滤波 器,如最小均方或者递归最小二乘,来从m中估算m′;为了计算效率,我们假定m和m′的主要 差别是振幅和相位(或框架间隔),相位差反应了m和m′的不同时,在一份相关的研究中提 出,估算m和c之间音量级的差,然后在m后从c减去m可以用差值补偿;但是,他们的方法不能 解决m和m′振幅和相位不同的问题;自适应滤波器的概念可以通过频域计算实现;双频道信 号首先被分成帧,然后通过快速傅里叶变换法转换为幅度谱;假设Ct={Ct,1,Ct,2,...,Ct,J) 和Mt={Mt,1,Mt,2,...,Mt,J}分别表示伴奏声音频道和只有伴奏频道的第t帧样本幅度谱,其 中J是频率成分的数值;假定Ct=St+M′t,其中St={St,1,St,2,...,St,J)是声音幅度谱,而M′t={M′t,1,M′t,2,...,M′t,J)是背景伴奏的幅度谱,为了找到St,我们可以通过atMt+bt接近M′t, 其中Mt+bt是紧挨着可能与M′t相对应的Mt的第bt帧;而at是反映Mt和M′t之间振幅差的换算系 数,最优bt可以通过在事先预置的可产生最小二乘方误差的范围(±B)内进行挑选找到,即 其中是考虑到的最优振幅换算系数;那么,假设 我们得出以下at的最小二乘误差法答案为相应地,t帧上声音幅度谱可以通过估算出来。

3.根据权利要求1所述的一种基于人声音色的个性化点唱推荐方法,其特征在于:步骤 一中所述的将伴奏和人声分离后,使用人声部分的音频数据去进行演唱者音色分析;每一 个演唱者的人声音频数据中,会既包含语音的文本特征,又包含演唱者音色特征,在文本无 关方式下,我们希望这些特征主要表示的是演唱者的音色特征;最终的目标是得到演唱者 音色模型描述;要想满足上述目标,需要按照如下准则从人声音频数据中对演唱者音色特 征参数进行提取:对局外变量不敏感,能够长期保持稳定,易于测量,与其他特征不相关;通 常很难找到同时满足以上要求的特征,一般通过采取一些折衷措施的方式实现;通过不断 的实验和探索发现,声道频率特性以及激励信号源两者共同作用产生了语音信号,由于激 励信号源经常伴有一些随机性,因而人声的个性特征主要取决于发音声道;因此,可以用能 量、共振峰值、基音频率等参数表示人声音色特征;目前语音识别中常用梅尔倒谱系数与线 性预测倒谱系数来表示说话者的音色特征,两者都采取了将语音从时域变换到倒谱域上的 方式,MFCC通过模拟人耳听觉模型,使用滤波器组对语音信号进行滤波,然后以滤波后的输 出作为声学特征,直接通过快速傅立叶变换将信号转换到频域中;LPCC从人的喉咙构造引 起的发声模型角度出发,利用线性预测编码技术求倒谱系数;在人声音色个性化推荐部分 我们使用12维MFCC,12维MFCC差分和12维LPCC来描述音乐;

MFCC的计算主要分为5个步骤,具体流程如下:

预处理:包括预加重、分帧和加窗函数;

快速傅里叶变换:将信号从时域变换到频域,便于观察信号在各频率分量上的能量分 布特点,如式1所示

X(i,k)=FFT[xi(m)](1)

计算谱线能量:对每一帧FFT后的数据计算谱线的能量,如式2所示

E(i,k)=[X(i,k)]2(2)

计算通过MEL滤波器的能量:将能量谱通过一组三角带通梅尔频率滤波器,并计算在该 MEL滤波器中的能量,在频域中相当于把每帧的能量谱E(i,k)与MEL滤波器的频域响应Hm(k)相乘并相加,如式3所示

S(i,m)=Σk=0N-1E(i,k)Hm(k),0m<M---(3)]]>

计算DCT倒谱:把MEL滤波器的能量取对数后计算DCT,如式4所示

mfcc(i,n)=2MΣm=0M-1log[S(i,m)]cos(πn(2m-1)2M)---(4)]]>

线性预测倒谱参数(LPCC)是线性预测(LPC)在倒谱域中的表示方式,LPC系数可以通过 自相关法求得,该方法可以保证系统的稳定性,并可以得到具有最小相位的声道模型传输 函数如式5所示;

H(z)=G1-Σi=1paiz-i---(5)]]>

由此可得出语音信号的倒谱和现行预测系数之间的递推关系,如式6所示

或是由LPC通过式7计算得到:

GLPCC(n)=GLPC(n)+Σk=1n-1n-knCLPCC(n-k)CLPC(k)---(7)]]>

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510859812.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top