[发明专利]一种面向简谱图像的音高及对应歌词提取方法及系统有效
| 申请号: | 202010036491.0 | 申请日: | 2020-01-14 | 
| 公开(公告)号: | CN111274891B | 公开(公告)日: | 2023-05-02 | 
| 发明(设计)人: | 尹学渊;祁松茂;江天宇 | 申请(专利权)人: | 成都潜在人工智能科技有限公司 | 
| 主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/18;G06V30/148 | 
| 代理公司: | 成都睿道专利代理事务所(普通合伙) 51217 | 代理人: | 贺理兴 | 
| 地址: | 610000 四川省成都市高新区*** | 国省代码: | 四川;51 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 面向 简谱 图像 音高 对应 歌词 提取 方法 系统 | ||
本发明公开了一种面向简谱图像的音高及对应歌词提取方法及系统,系统应用该方法,方法包括:将待识别的简谱图像转化为灰度图,并进行矫正;将处理后的简谱图像输入训练好的字符识别模型,识别得到简谱图像的字符及字符的位置信息的集合;根据字符的位置信息对字符进行排序分行,得到每行字符的字符集合;根据字符集合进行字符筛选,筛除无关信息,并将多个字符行的集合分为音高行和歌词行两个集合;将歌词行内的字符逐一与音高行内的字符进行距离计算;根据计算得到的距离以及单个字符的位置信息对音高字符和歌词字符进行匹配;从简谱图像中剪切出音高字符图像;分析剪切图像中浮点的存在性及位置占比,判断音高;更新歌词与对应音高的匹配结果。
技术领域
本发明属于光学乐谱识别技术领域,具体地说,涉及一种面向简谱图像的音高及对应歌词提取方法及系统。
背景技术
在千万年的历史中,人类创作的音乐,发明了用于记录音乐的乐谱,为了便于学习,又发明了音乐简谱。曾经中国古代四大发明之一的造纸术,使得古人创作的各种作品得以一代一代保存并传递下来,其中就包括乐谱。在数字化信息化的现在,通过纸张保存下来的各种文字信息需要通过数字化的形式进行保存并传递,以便于检索、管理和利用。光学字符识别技术(Optical Character Recognition,OCR)近年来已经得到蓬勃发展。
申请号为201210086072.3的发明专利公开了一种简谱图像的自动识别和演奏的方法,该方法有三大步骤:步骤一、简谱图像预处理;步骤二、简谱基元识别;步骤三、数字音频的生成和播放。本发明在深入分析简谱特征基础上,克服了简谱识别的诸多难点,提出一整套简谱自动识别和智能播放方法。该方法可以自动识别印刷体简谱、带歌词简谱、简谱与五线谱混合谱、简谱与吉他谱混合谱等多种形式的印刷体简谱,正确率均在95%以上;此外,该方法可以模拟钢琴、小提琴、吉他等多种乐器对简谱的演奏效果,并且可以实现简谱的实时识别和播放。
该方案中采用支持向量机来识别简谱基元,通过构建样本分类器来分类音符基元,构建的样本分类器智能分类14类音符基元的两两组合,无法对简谱中的重要信息—歌词,进行定位和分类。不能够实现字符和音高匹配。
发明内容
针对现有技术中上述的不足,本发明提供一种面向简谱图像的音高及对应歌词提取方法及系统,该方法对简谱图像进行识别,实现字符和音高匹配,可以对互联网上存在的简谱数字图像有着较高的识别率和准确率,且识别速度较快,可以极大的降低人工成本,节省时间,提升效率;系统应用该方法,结构简单,识别速度较快。
为了达到上述目的,本发明采用的解决方案是:一种面向简谱图像的音高及对应歌词提取方法,包括如下步骤:
S1:简谱图像预处理,将待识别的简谱图像转化为灰度图,并对图像进行矫正;
S101:将简谱图像转换为单通道的灰度图,采用如下公式:
Gray=(R*a+G*b+B*c)/d,其中Gray为灰度通道,R为原图像红色通道值,G为绿色通道值,B为蓝色通道值,a、b、c、d是各个系数且均为正整数;
S102:采用透视变换对灰度图进行矫正,通过二值化和图像开闭运算获取灰度图的四角作为初始点坐标,指定变换后的四角坐标,根据矫正变换公式求出变换矩阵a,再按照变换矩阵对图像进行插值,完成图像矫正,矫正变换公式为:
其中,[x',y',w']是变换后的坐标点,[u,v,w]是初始的点坐标,由于初始点坐标源于二维图像,所以初始坐标的w恒为1;a矩阵是变换矩阵。
S2:将处理后的简谱图像输入训练好的字符识别模型,字符识别模型包括两个,一个是CTPN模型,另一个是DenseNet与CTC的组合模型,CTPN模型用于字符的定位,DenseNet与CTC的组合模型用于字符的识别,简谱图像输入两个字符识别模型后得到简谱图像的字符及字符的位置信息的集合,字符的位置信息也就是字符框的四角坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都潜在人工智能科技有限公司,未经成都潜在人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010036491.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
 - 图像编码/图像解码方法以及图像编码/图像解码装置
 - 图像处理装置、图像形成装置、图像读取装置、图像处理方法
 - 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
 - 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
 - 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
 - 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
 - 图像形成设备、图像形成系统和图像形成方法
 - 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
 - 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
 





