[发明专利]用户演唱数据处理方法和装置有效
申请号: | 201610024833.0 | 申请日: | 2016-01-14 |
公开(公告)号: | CN106971743B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 傅鸿城 | 申请(专利权)人: | 广州酷狗计算机科技有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 510660 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 演唱 数据处理 方法 装置 | ||
1.一种用户演唱数据处理方法,其特征在于,所述方法包括:
根据指定歌曲的各参考音素的参考音调值、参考发音时长值以及相邻音素获取与每个参考音素对应的音素声学模型,获得音素声学模型序列;
将所述指定歌曲的用户演唱数据划分音频帧;
计算每个所述音频帧与所述音素声学模型序列中的每个所述音素声学模型的匹配度,根据所述匹配度确定所述音频帧与所述音素声学模型序列中的各所述音素声学模型的匹配结果;
根据所述匹配结果从所述用户演唱数据中切分出用户发音切分结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
为待训练的音素集合中的每个音素分配可选相邻音素、可选音调值和可选发音时长值;
对于所述音素集合中的每个音素,根据相应的可选相邻音素、可选音调值以及可选发音时长值的各种组合所对应的训练样本,训练获得与所述每个音素对应的音素声学模型。
3.根据权利要求1所述的方法,其特征在于,所述计算每个所述音频帧与所述音素声学模型序列中的每个所述音素声学模型的匹配度,根据所述匹配度确定所述音频帧与所述音素声学模型序列中的各所述音素声学模型的匹配结果,包括:
计算每个所述音频帧与所述音素声学模型序列中每个所述音素声学模型的匹配度;
确定将所述用户演唱数据中的所述音频帧与所述音素声学模型序列中的各所述音素声学模型按顺序进行匹配的可选路径;
根据每种可选路径下相应的匹配度计算每种可选路径的置信度;
根据所述置信度从所述可选路径中确定最优路径,以获得所述最优路径所表示的所述音频帧与所述音素声学模型序列中的各所述音素声学模型的匹配结果。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述用户发音切分结果获得新的音素声学模型序列,当不满足迭代停止条件时,继续将所述音频帧与新的音素声学模型序列中的各音素声学模型按顺序进行匹配,获得匹配结果,直至满足迭代停止条件。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算所述用户发音切分结果对应的用户发音音素的用户音调值和用户发音时长值,并获得所述用户发音音素的相邻音素;
根据所述用户发音音素的用户音调值、用户发音时长值以及相邻音素获取相应的音素声学模型,获得新的音素声学模型序列;
判断当前获得的新的音素声学模型序列是否与前次获得的音素声学模型序列一致;
若一致,则输出当前切分出的用户发音切分结果;
若不一致,则继续将所述音频帧与新的音素声学模型序列中的各音素声学模型按顺序进行匹配,获得匹配结果。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述用户发音切分结果对应的用户发音音素的用户音调值和用户发音时长值;
根据所述用户音调值与相应的参考音素的参考音调值的差异,和/或所述用户发音时长值与相应的参考音素的参考发音时长值的差异,进行用户演唱发音评测。
7.根据权利要求6所述的方法,其特征在于,所述根据所述用户音调值与相应的参考音素的参考音调值的差异,和/或所述用户发音时长值与相应的参考音素的参考发音时长值的差异,进行用户演唱发音评测,包括:
将所述用户音调值与相应参考音素的参考音调值进行比较,确定偏离所述参考音调值超过第一预设幅度的用户音调值;
将所述用户发音时长值与相应参考音素的参考发音时长值进行比较,确定偏离所述参考发音时长值超过第二预设幅度的用户发音时长值;
分别标记确定的用户音调值和确定的用户发音时长值在所述用户演唱数据中的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610024833.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:移动终端的音视频数据的处理方法及系统
- 下一篇:盘装置及其制造方法