[发明专利]语音点歌方法无效
| 申请号: | 200710178493.8 | 申请日: | 2007-11-30 | 
| 公开(公告)号: | CN101206859A | 公开(公告)日: | 2008-06-25 | 
| 发明(设计)人: | 王智;童鲲;张钹;张云刚 | 申请(专利权)人: | 清华大学;上海锐深计算机科技有限公司 | 
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10H1/00;G10H1/36;G06F17/30 | 
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 | 
| 地址: | 100084北京市100*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 语音 点歌 方法 | ||
技术领域
本发明涉及一种能根据操作者的语音(歌曲名或歌手名)进行歌曲点播选择的语音点歌方法;更具体的,本发明涉及一种通过对操作者的语音输入与歌库中的歌曲名或歌手名作比较来进行歌曲检索选择的语音点歌方法。
背景技术
传统的点歌方式包括:歌名字数检索,首字笔画检索,曲种类别检索等,由于歌曲数目较多(通常是在一万以上),操作者往往需要进入多层菜单,浏览多个页面才能找到目标歌曲,查找歌曲的方式不够友好而且效率很低。以常用的歌名字数检索方法为例,要点播“风雨无阻”这首歌,需要操作者先选择“歌名字数检索”,然后选择“四字歌”,四字歌曲有上百首,而每页只能显示十首到二十首,所以操作者常常还需要进行多次翻页才能找到目标歌曲。根据实际数据统计,传统点歌方式下,操作者每点播一首歌曲的平均按键次数是8次,平均耗费时间是12秒。
近年来,随着语音识别技术的发展,不少应用领域都在尝试利用语音技术来为用户提供更为便捷的操作方式。但是由于语音识别本身的准确率和容错性不够高,使得要提供真正具有实用价值的语音应用产品具有很高的技术难度,也导致很多语音应用系统只具有演示作用,而真正在实际中的使用效果并不理想。
本发明正是针对目前点歌方式不够友好和高效的缺点,在现有语音识别技术之上通过音节链的表示方法和具有高准确率和容错性的匹配方法,使得操作者能很方便的通过语音进行点歌操作。根据实际数据统计,使用本发明的语音点歌方法,操作者每点播一首歌曲的平均按键次数在4次以下,平均耗费时间是5秒。
发明内容
本发明的目的是为了给操作者提供更为自然便捷高效的点歌方式,在现有语音识别技术基础之上,提供了语音识别后处理及歌库文字预处理方法,从而将其转换成统一的音节链数据结构,并针对此结构提供了具有动态规划性质的搜索匹配方法,极大的提高了匹配的容错性和检索效率,从而使整个语音点歌方法具有很强的实用性。同时在搜索匹配中定义音节相似性时,充分考虑了非标准普通话的情形,处理了各种易混淆的音节,很大程度上增强了本方法的应用效果。本方法在PC平台上实现,具有相当广的适用范围。
本发明的特征在于:
该方法是在PC机上依次按以下步骤实现的:
步骤(1) 初始化
在该PC机上安装数据初始化模块,歌曲文字预处理模块、录音设备控制模块、语音识别模块、识别结果后处理模块、搜索与匹配模块,其中:
A.数据初始化模块,预置有:
√最基本的由音节和音节链组成的数据结构,其中,一个音节包括声母和韵母,忽略声调后,对应于一个汉字,多个汉字对应于由多个音节组成的一个音节链;
√汉字字库文件,含有拼音和汉字的对应关系;
√包含了声母相似性度量值表,其中包括的声母对有:声母B和P,F和H,D和T,N和L,N和R,G和K,X和SH,X和S,ZH和Z,CH和C以及SH和S,还有所述各对声母相似性度量值,
√包含了韵母相似性度量值表,其中韵母对至少含有:A和AI,A和AO,A和AN,E和EI、IA和IANG,还有所述各对韵母相似性度量值;
√包含了差异常量值表,其中包括:声、韵母的最大差异值:100,字符和空字的差异值:1000,空字和字符的差异值:1000;
B.歌库文字预处理模块,含有:
√歌库文件,含有歌曲名和歌手名,歌库文件中的歌曲名和表示该歌曲名的语音的音节链的映射表,所述音节链称为歌曲名目标音节链字符串;歌库文件中的歌手名和表示该歌手名的语音的音节链的映射表,所述音节链称为歌手名目标音节链字符串;
√该模块根据输入的该歌库中歌曲名或歌手名的每个汉字的文字信息,利用相应的映射表,在汉字字库中找到每个汉字对应的音节,在拆分成声母和韵母两个部分后,组成歌曲名或歌手名目标音节链字符串输出;
C.录音设备控制模块,其根据设定的录音采样频率和位数,控制录音设备的启动和停止,并调节音量的大小;
D.语音识别模块,利用现有语音识别包文件,根据从所述声卡输入到该语音识别模块的歌曲名或歌手名的语音录音,进行语音识别,输出识别后的文字串;
E.识别结果后处理模块,调用所述汉字字库文件,把从语音识别模块输入的经过识别后的文字串转换为用音节链表表示的字符串,构成源音节链字符串;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;上海锐深计算机科技有限公司,未经清华大学;上海锐深计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710178493.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:桦树皮中白桦脂醇的提取纯化方法
 - 下一篇:生产颗粒碱的装置
 





