[发明专利]自动作曲方法、装置和终端设备有效
申请号: | 201710175115.8 | 申请日: | 2017-03-22 |
公开(公告)号: | CN107045867B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 何江聪;潘青华;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10H1/00 | 分类号: | G10H1/00;G10L25/03;G10L25/30;G10L25/48 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 作曲 方法 装置 终端设备 | ||
1.一种自动作曲方法,其特征在于,包括:
接收待预测前段音乐的音乐文件,所述待预测前段音乐的音乐文件包括所述待预测前段音乐的音频数据或音乐描述信息;
提取所述音乐文件对应音乐的帧级音频特征;
根据所述帧级音频特征和预先构建的音乐频带特征结合模型,获得携带频带信息的帧级音频特征,所述音乐频带特征结合模型是根据音频文件的帧级音频特征和音乐频带特征结合模型的拓扑结构训练得到的;
根据所述携带频带信息的帧级音频特征和预先构建的音乐预测模型,获得预测出的音乐,以实现自动作曲,所述音乐预测模型是根据所述音乐频带特征结合模型的输出和音乐预测模型的拓扑结构训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述根据所述帧级音频特征和预先构建的音乐频带特征结合模型,获得携带频带信息的帧级音频特征之前,还包括:
收集音乐文件,并将所述音乐文件转换为相同格式的音频文件;
提取所述音频文件的帧级音频特征;
确定音乐频带特征结合模型的拓扑结构;
根据确定的拓扑结构和所述帧级音频特征,训练所述音乐频带特征结合模型。
3.根据权利要求2所述的方法,其特征在于,所述提取所述音频文件的帧级音频特征包括:
将所述音频文件按帧进行固定点数的快速傅里叶变换;
根据快速傅里叶变换的结果计算所述音频文件的每帧在每个频率点的能量值;
根据所述能量值确定每帧的音符归属;
计算每个音符的能量值,根据每个音符的能量值获取帧级音频特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述能量值确定每帧的音符归属包括:
在每个频率点,确定所述音频文件的第一帧和第二帧属于第一个音符;
判断第一差值的绝对值是否小于第二差值;所述第一差值为所述音频文件的第三帧的能量值与所述音频文件的第一帧到第二帧能量值的平均值之差,所述第二差值为所述音频文件的第一帧到第二帧能量值的最大值与最小值之差;
如果是,则确定所述音频文件的第三帧属于第一个音符,再依次向后判断第四帧直至最后一帧的音符归属。
5.根据权利要求4所述的方法,其特征在于,所述判断第一差值的绝对值是否小于第二差值的绝对值之后,还包括:
如果所述第一差值的绝对值大于或等于所述第二差值,则将所述音频文件的第三帧作为第二个音符的开始,并确定所述音频文件的第四帧属于所述第二个音符;
从所述音频文件的第五帧开始判断第三差值的绝对值是否小于第四差值,所述第三差值为所述音频文件的第五帧的能量值与所述音频文件的第三帧到第四帧能量值的平均值之差,所述第四差值为所述音频文件的第三帧到第四帧能量值的最大值与最小值之差;直至将所述音频文件的最后一帧的音符归属确定完毕。
6.根据权利要求3所述的方法,其特征在于,所述计算每个音符的能量值,根据每个音符的能量值获取帧级音频特征包括:
计算每个音符所含所有帧的能量均值,作为每个音符的能量值;
将每个音符所包括的每帧的能量值归一化为所属音符的能量值;
滤除能量值小于预定阈值的音符,以获得帧级音频特征。
7.根据权利要求1所述的方法,其特征在于,所述根据所述携带频带信息的帧级音频特征和预先构建的音乐预测模型,获得预测出的音乐之前,还可以包括:
确定音乐预测模型的拓扑结构;
根据所述音乐频带特征结合模型的输出,以及确定的拓扑结构,训练所述音乐预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710175115.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:差分信号传输电路和显示装置
- 下一篇:一种局域共振型声子晶体周期涂层结构