[发明专利]语音声调的识别方法和装置无效
申请号: | 201210088946.9 | 申请日: | 2012-03-29 |
公开(公告)号: | CN103366736A | 公开(公告)日: | 2013-10-23 |
发明(设计)人: | 韩卫生;谢凌云;潘兴德;章斯宇;孟子厚 | 申请(专利权)人: | 北京中传天籁数字技术有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100024 北京市朝阳区建*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 声调 识别 方法 装置 | ||
技术领域
本发明涉及一种语音声调的识别方法和装置,尤其涉及一种基于语言生态学的语音声调的识别方法和装置。
背景技术
近年来,随着语音识别等语音学技术的进步,计算机辅助语言学习技术作为一个全新的交叉学科研究课题逐渐受到学术界和教育界的关注。
现有的运用计算机进行普通话水平测试和指导学习的方法采用了以音段为单位建立普通话水平测试评分机制,采用语音识别的方法,计算参加普通话水平考试考生的得分,并指出考生的发音错误。
但是现有技术中对于声调识别方法的误识别率比较高,由此影响汉语语音的学习。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种语音声调的识别方法和装置,可以有效的对语音的声调进行识别,从而有利于汉语语音的学习。
为实现上述目的,本发明提供了一种语音声调的识别方法,所述方法包括:
采集语音数据;
将所述语音数据中的音节的基音序列进行分割,分别得到第一子基音序列、第二子基音序列和第三子基音序列;
将所述第一子基音序列、第二子基音序列和第三子基音序列分别取均值/中值,得到第一子均值/中值、第二子均值/中值和第三子均值/中值;
根据所述第一子均值/中值、第二子均值/中值和第三子均值/中值判断语音声调。
为实现上述目的,本发明提供了一种语音声调的识别装置,所述装置包括:
采集单元,用于采集语音数据;
分割单元,用于将所述语音数据中的音节的基音序列进行分割,分别得到第一子基音序列、第二子基音序列和第三子基音序列;
取平均单元,用于将所述第一子基音序列、第二子基音序列和第三子基音序列分别取均值/中值,得到第一子均值/中值、第二子均值/中值和第三子均值/中值;
判断单元,用于根据所述第一子均值/中值、第二子均值/中值和第三子均值/中值判断语音声调。
本发明语音声调的识别方法和装置可以有效的对语音的声调进行识别,识别速度快,识别精度高,从而有利于汉语语音的学习。
附图说明
图1为本发明语音声调的识别方法的示意图;
图2为本发明语音声调的识别方法中四个声调的基音曲线;
图3为本发明基于三段中值声调识别时各个声调的分布区域示意图;
图4为本发明语音声调的识别装置的示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明是一种利用基音的均值或中值来判断语音声调的方法,图1为本发明语音声调的识别方法的示意图,如图所示,本发明具体包括如下步骤:
步骤101,采集语音数据;
步骤102,对所述语音数据中的音节进行切分处理,根据预先建立好的语音模型,查找所述语音数据的音节单位,并切分出音节;
在声调识别之前,进行音节切分,可以采用隐马尔科夫模型(HMM)训练声学模型的方法,借助于预先建好的-语音模型,再利用Viterbi算法在预知语音内容的前提下找出语音信号的音节单位,把音节切分出来。
步骤103,将所述语音数据中的音节的基音序列进行分割,分别得到第一子基音序列、第二子基音序列和第三子基音序列;
步骤104,将所述第一子基音序列、第二子基音序列和第三子基音序列分别取均值/中值,得到第一子均值/中值、第二子均值/中值和第三子均值/中值;
步骤105,根据所述第一子均值/中值、第二子均值/中值和第三子均值/中值判断语音声调。
根据所述第一子均值、第二子均值和第三子均值判断语音声调具体为:如果所述第一子均值、第二子均值和第三子均值相近似则为阴平声调;如果所述第一子均值、第二子均值和第三子均值为递增则为阳平声调;如果所述第一子均值和第三子均值均大于第二子均值则为上声声调;如果所述第一子均值,第二子均值和第三子均值为递减则为去声声调。
图2为本发明语音声调的识别方法中四个声调的基音曲线,如图所示,四个声调的基音曲线各有特点:阴平的基音曲线平直而高,阳平的基音曲线由低而高,上声的基音曲线是一个凹形曲线,去声的声调曲线从高到低大幅下降。所以如果将各个声调的基音曲线分成三段,各段求取基音平均值则有:阴平会具有三个相近的-均值,阳平有三个递增的均值,上声中段具有相比于头尾两段要小的均值,去声则是三个递减的均值。所以可以利用三段均值参数对声调进行判别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中传天籁数字技术有限公司,未经北京中传天籁数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210088946.9/2.html,转载请声明来源钻瓜专利网。