[发明专利]一种基于语音的日语发音评测方法和系统在审
申请号: | 202011115349.1 | 申请日: | 2020-10-19 |
公开(公告)号: | CN114387959A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 穆德国 | 申请(专利权)人: | 北京爱语吧科技有限公司 |
主分类号: | G10L15/10 | 分类号: | G10L15/10;G10L15/08;G10L15/26;G10L25/24;G10L25/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100089 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 日语 发音 评测 方法 系统 | ||
本发明提供了一种基于语音的日语发音评测方法和系统,通过将目标用户对已知的句子文本的发音语音音频输入训练好的双层深度神经网络模型中完成对输入音频文件的日语发音评测。由语音采集系统采集到的目标用户的音频文件首先输入用于实现输入语音文本和已知目标文本之间的对齐的第一层深度神经网络,对齐后的语音文本被拆分为以单词为单位的音频文件进行输出。将所述以单词为单位的音频文件输入到第二层深度神经网络中进行语音识别和测评的操作,得到目标句子单词的发音正确率;基于所述单词的发音正确率对目标用户的日语发音进行评分,得到目标分数。消除由于目标用户重读,连读等发音习惯的主观影响,大大提高了评分的准确率。
技术领域
本发明属于语音识别领域,特别是一种基于语音的日语发音评分方法和系统。
背景技术
随着全球化进程,越来越多的人开始学习外语。而口语练习在外语学习中具有很大的意义。但是,雇佣外教或者营造外语口语练习的氛围对大多数的外语学习者来说是比较昂贵并且不现实的,因此考虑寻找更加方便快捷且便宜的方式进行外语学习的口语发音练习。手机和计算机作为人们普及率较高的上网工具是较为理想的口语发音练习的训练工具。因此越来越多的研究人员开始进行基于上网工具的计算机辅助语音学习(CALL)来进行语音识别的研究。研究表明,日语作为在亚洲广泛使用的语言,有很多中国人正在进行日语的学习,若果可以方便而准确的对日语学习者的日语发音进行检测,评分,并进行早期的发音更正,可以大大提高日语学习的效率和有效性,因此针对日语学习的学习者的口语发音学习有着重要的意义。
目前常用的自动语音识别(ASR)技术是只负责直接输出语音识别的结果并可以通过语言模型和语料库纠正某些发音的错误。因此ASR并无法指出被试者哪些位置的发音存在问题以及对这些问题进行诊断和打分。同时,考虑到由于不同被试者发音习惯以及口音的问题,包括重读,连读和语音语调等差异可能会造成发音检测诊断和评分的问题,从而影响语音诊断的质量。传统的ASR技术都是直接对句子层面上的语音进行识别的,但是在进行外语学习时,主要的任务是在单词以及音素层面上正确的发音,以此才能实现交流发音的正确性。因此,本文使用的计算机辅助语言训练(CAPT)技术主要是考虑对发音的错误进行检测和诊断。语音发音错误的检测主要是根据被试者的发音找到其发音的错误,语音发音错误的诊断部分,将会根据检测产生正确的反馈,从而使得被试者的发音水平得到提高。
发明内容
为解决技术背景中存在的问题,针对现有的语音识别技术(ASR)对被试者日语发音的进行检测时,难以检测出语音评测时的诊断错误,且容易由于被试者的发音习惯从而丢失上下文信息,导致ASR技术难以对被试者的日语发音实现快速有效的测评。本发明提出了一种基于语音输入的日语发音评分方法和系统,可以在已知目标文本的情况下,基于对被试者的文本语音输入文件,对该语音文件进行单词层面的对齐和音素层面的语音识别模型自动对目标用户进行综合评分,消除发音习惯因素的主观影响,大大提高了自动评分的准确率。
本发明实施例第一方面提供了一种基于语音的日语发音评测方法,所述方法包括:基于连接时间分类(CTC)算法和attention机制的不同的有益特征,使用双层深度神经网络模型(DDNN)对被试者的日语发音音频进行发音准确度的评测;第一层深度神经网络使用CTC和viterbi语音模型对输入语音序列和目标文本序列进行对齐操作。完成上述序列对齐操作后,在第二层深度神经网络中使用attention模型进行音素级别的日语单词识别和准确度评测。使用DDNN可最大限度的使用CTC和attention模型的优势,从而减少错误识别率。上述的双层深度神经网络模型均利用软件TensorFlow为基础进行深度训练。
本发明所述第一层深度神经网络首先将目标用户对已知日语目标文本的日语发音的音频文件进行基于编码器-解码器和对齐的操作实现对输入的语音文本的对齐操作。
所述MFCC特征提取之前首先进行信号的预处理,主要完成以下步骤:
对所述目标用户输入语音信号的高频部分进行预加重处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱语吧科技有限公司,未经北京爱语吧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011115349.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种场效应晶体管的建模方法
- 下一篇:高声速振膜及其制作方案和电动扬声器