[发明专利]音频识别方法、装置及存储介质有效
申请号: | 201711249117.3 | 申请日: | 2017-12-01 |
公开(公告)号: | CN107978323B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 邓博元;朱碧磊;金星明 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L15/28;G06F16/632 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 刘映东 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 识别 方法 装置 存储 介质 | ||
1.一种音频识别方法,其特征在于,所述方法包括:
获取目标人声音高值序列和待识别的音频片段的采集方式标识,所述目标人声音高值序列从所述待识别的音频片段中提取,所述采集方式标识用于指示所述待识别的音频片段的来源方式;
将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配,所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列,所述实际人声音高值序列的确定过程为:对于任一音频文件,获取所述音频文件对应的歌词文件;根据所述歌词文件中每个字的播放时间区间和所述音频文件的人声音高值序列中人声音高值变化时间,从所述人声音高值序列中,确定多个音符;计算每个音符对应的人声音高值;对所述多个音符进行过滤;将过滤后的音符所组成的音符序列及音符序列中每个音符的人声音高值,作为实际人声音高值序列;
如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配,将匹配到的音频文件的音频文件信息发送至目标终端。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配,包括:
对每个音频文件的实际人声音高值序列进行整体缩放,得到每个音频文件对应的多个参考人声音高值序列;
根据每个音频文件所包括的多个音频片段的起始播放时间,按照与每个音频文件相同的缩放比例,将每个音频文件对应的每个参考人声音高值序列切分为多个参考人声音高值子序列;
将所述目标人声音高值序列与每个音频文件对应的每个参考人声音高值子序列进行匹配;
所述如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配,将所述音频文件的音频文件信息发送至所述目标终端,包括:
如果所述目标人声音高值序列与任一音频文件对应的任一参考人声音高值子序列相匹配,将所述音频文件的音频文件信息发送至所述目标终端。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配之前,还包括:
获取多个音频文件;
将每个音频文件输入到已训练的人声音高值序列提取模型中,得到每个音频文件的人声音高值序列;
对每个音频文件的人声音高值序列进行处理,得到每个音频文件的实际人声音高值序列;
根据多个音频文件的实际人声音高值序列,构建所述音频数据库。
4.根据权利要求3所述的方法,其特征在于,所述将每个音频文件输入到已训练的人声音高值序列提取模型中之前,还包括:
对每个音频文件进行预处理;
将预处理后的每个音频文件进行常数Q变换;
所述将每个音频文件输入到已训练的人声音高值序列提取模型中,包括:
将常数Q变换后的每个音频文件输入到所述已训练的人声音高值序列提取模型中。
5.根据权利要求1所述的方法,其特征在于,所述对所述多个音符进行过滤,包括:
如果任一音符为指定音符,则将所述音符从所述人声音高值序列中删除,所述指定音符包括播放时间小于预设时长的音符、八度错误音符、滑音符以及人声音高值为零的音符中至少一种。
6.一种音频识别方法,其特征在于,所述方法包括:
获取待识别的音频片段和所述待识别的音频片段的采集方式标识,所述采集方式标识用于指示所述待识别的音频片段的来源方式;
从所述待识别的音频片段中,提取目标人声音高值序列;
根据所述目标人声音高值序列得到识别出的至少一个音频文件的音频文件信息,所述至少一个音频文件的实际人声音高值序列与所述目标人声音高值序列相匹配,所述实际人声音高值序列的确定过程为:对于任一音频文件,获取所述音频文件对应的歌词文件;根据所述歌词文件中每个字的播放时间区间和所述音频文件的人声音高值序列中人声音高值变化时间,从所述人声音高值序列中,确定多个音符;计算每个音符对应的人声音高值;对所述多个音符进行过滤;将过滤后的音符所组成的音符序列及音符序列中每个音符的人声音高值,作为实际人声音高值序列;
显示所述至少一个音频文件的音频文件信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711249117.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种K歌打分算法
- 下一篇:一种无线语音质量评估方法及装置