[发明专利]一种歌声侦测的方法有效
| 申请号: | 201810170413.2 | 申请日: | 2018-03-01 |
| 公开(公告)号: | CN108538309B | 公开(公告)日: | 2021-09-21 |
| 发明(设计)人: | 龚俊;熊永春 | 申请(专利权)人: | 杭州小影创新科技股份有限公司 |
| 主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L17/00;G10L25/51;G10L25/81 |
| 代理公司: | 杭州天昊专利代理事务所(特殊普通合伙) 33283 | 代理人: | 董世博 |
| 地址: | 310000 浙江省杭州市西湖*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 歌声 侦测 方法 | ||
1.一种歌声侦测的方法,其特征在于,具体步骤如下:
101)获取BGM频谱特征步骤:选定出一段目标歌曲中没有歌唱的纯背景音乐即BGM,提取其频谱特征,所述频谱特征的获取方式为先将BGM划分为N个单元,提取每个单元的频谱,而后求其频谱均值来作为其频谱特征;
102)剔除BGM步骤:根据步骤101)针对一个频点,遍历其前后5个单元的相应频点的频谱特征,并根据特征频谱值来找出其中的次极大值,当次极大值大于等于频谱值时,则该频点为需要进行剔除处理的频点;
103)人声判断步骤:将经过步骤102)处理后的音频信号,利用WebRTC来判断人声,并将音频信号分割为每次输入10ms的音频信号,WebRTC检测后的结果为“真”表示是人声,为“假”表示不是人声;所述WebRTC是Google开放项目,其中的VAD功能用于检测人声;
104)侦测数据的后处理步骤:将步骤103)的判断后的结果数据进行处理,最终将以时间段落的方式呈现歌声,具体包括如下处理的状况:
将步骤103)中经过判断的每段检测结果作为一个结果单元,根据其是否在歌声区域进行进一步的判别处理,当该结果单元处于歌声区域,并且WebRTC检测结果为“真”,则计算已有歌声区间的长度,当其大于歌声区域的长度则判定构建为一段歌唱区间,并进行重置标志量,若其小于歌声区域的长度则进行下一个结果单元的判定;当该结果单元处于歌声区域,并且WebRTC检测结果为“假”,则进行累加静音时长,再进行比较该静音时长与预设的一首歌的静音阈值,若小于静音阈值则直接进行下一个结果单元的判定,若大于静音阈值则计算声长,并与声长下限阈值进行对比,若小于声长下限阈值则丢弃这段数据,重置标志量,若大于声长下限阈值则构建为一段歌唱区间,重置标志量;当该结果单元不处于歌声区域,则进一步判定是否是歌声,若是,则标志歌声开始,若不是,则进行下一个结果单元的判定。
2.根据权利要求1所述的一种歌声侦测的方法,其特征在于,所述步骤102)某个需要进行剔除处理的频点的频谱值为X(k),则处理后的频谱值为
X′(k)=G*X(k) 公式(1)
其中G=0.000001为剔除增益;因直接这样抹除BGM,其处理后的信号平滑性仍不足;声音会有触发、衰减、延续、释放的过程,在触发和释放阶段做平滑处理。
3.根据权利要求2所述的一种歌声侦测的方法,其特征在于,所述平滑处理,具体处理方式如下:
触发阶段取20毫秒,释放阶段取100毫秒;
触发阶段,每一个单元的增益G1有:
G1=10gain/(20.0*(1+Ta*SampleRate/StepSize)) 公式(2)
其中,Ta是触发时长,SampleRate是信号的采样率,StepSize是分析步进,综合性能与平滑度取StepSize=N/4,gain是以分贝计量的增益;
可通过如下公式(3)换算得到:
gain=20*log10G 公式(3)
释放阶段,每一个单元的增益G2有:
G2=10gain/(20.0*(1+Tr*SampleRate/StepSize)) 公式(4)
其中,Tr是释放时长,其他参量含义与公式(2)相同。
4.根据权利要求3所述的一种歌声侦测的方法,其特征在于,所述触发阶段、释放阶段在应用时,会出现一下子将信号衰减到很小,这就会大大降低信号的平滑度,因此需将所要求衰减的增益与触发增益比较,取其中较大的值,以保证处理后的信号在时域上有较好的平滑度。
5.根据权利要求2所述的一种歌声侦测的方法,其特征在于,所述触发阶段、释放阶段在应用时,在时域上的平滑处理,能保证处理后的信号随时间不会出现过大跃变,但同一时间点,信号相邻频点之间仍存在出现跃变的状况,因此会对出现该跃变进行处理;
令某一频点的增益为Gi,前一个频点的增益为Gi-1,后一个频点的增益为Gi+1,取该频点前后频点增益的均值,平滑后,该频点的增益为
进一步,转换后得到公式(6):
X′(k)=G′*X(k) 公式(6)
其中G'是经过上述时域频域平滑后的信号增益。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州小影创新科技股份有限公司,未经杭州小影创新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810170413.2/1.html,转载请声明来源钻瓜专利网。





