[发明专利]一种英语口语自动打分方法及系统有效
| 申请号: | 201510259574.5 | 申请日: | 2015-05-20 |
| 公开(公告)号: | CN104992705B | 公开(公告)日: | 2018-08-24 |
| 发明(设计)人: | 王东;李全忠;胡博 | 申请(专利权)人: | 普强信息技术(北京)有限公司;清华大学 |
| 主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L15/02;G10L15/06 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100093 北京市海淀区东北旺*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 英语口语 自动 打分 方法 系统 | ||
本发明提供了一种英语口语自动打分方法及系统,该方法包括:提取待测语音信号的多帧语音特征;将所述多帧语音特征输入深度神经网络DNN模型,提取各帧语音特征的帧后验概率,所述DNN模型为预先训练的,DNN模型的输入量为帧语音特征,输出量为帧语音特征对不同发音的帧后验概率;对所述各帧语音特征的帧后验概率进行分布统计,得到待测语音信号的全局特征;利用多层前向神经网络模型MLP对所述全局特征进行打分。本发明相较传统基于GMM的打分方法具有更强的噪音和信道鲁棒性,而且对发音质量亦具有更强的区分性,得到的分数分布更加合理。
技术领域
本发明涉及信号处理技术领域,尤其涉及一种英语口语自动打分方法及系统。
背景技术
随着计算机技术的发展,越来越多的学习软件可以帮助人们更方便地学习外语。目前绝大多数计算机辅助外语学习软件主要关注文字应用能力和语言理解能力的训练,却很少关注口语发音能力训练。应用语音处理技术,可以实现英语学习中的口语发音自动打分。
当前主流的英语口语打分系统分为整体打分系统和对比打分系统两种。整体打分系统不提供标准发音,直接测试发音人的发音标准程度,因而需要依赖一个背景标准发音模型;对比打分系统提供标准发音,发音人跟读标准发音,系统评价发音人发音与标准发音的相似程度,从而实现英语口语的打分。但是,现有的英语口语打分系统并没有对评价分数进行合理分布,信道鲁棒性差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的英语口语自动打分方法及系统。
根据本发明的一个方面,提供了一种英语口语自动打分方法,该方法包括:
提取待测语音信号的多帧语音特征;
将所述多帧语音特征输入深度神经网络DNN模型,提取各帧语音特征的帧后验概率,所述DNN模型为预先训练的,DNN模型的输入量为帧语音特征,输出量为帧语音特征对不同发音的帧后验概率;
对所述各帧语音特征的帧后验概率进行分布统计,得到待测语音信号的全局特征;
利用多层前向神经网络模型MLP对所述全局特征进行打分。
可选的,所述对所述各帧语音特征的帧后验概率进行分布统计,提取待测语音信号的全局特征,包括:
将所述多帧语音特征与预设音素串进行对齐,得到每帧语音特征在其对应的音素上的后验概率;
根据所述每帧语音特征在其对应的音素上的后验概率,对各帧语音特征在其对应的音素上的后验概率进行分布统计,得到待测语音信号的全局特征。
可选的,所述对各帧语音特征在其对应的音素上的后验概率进行分布统计,提取待测语音信号的全局特征,包括:
统计各帧语音特征在其对应的音素上的后验概率在N个取值区间的分布比例,得到一个N维的全局特征向量[s(1),s(2),…s(N)],记为:
其中,T为待测语音信号的总帧数,δ为狄拉克函数,N为预设取值区间的个数,当参数中所设条件满足时,s(i)取1,否则取0;
{c(i);i=0,…N}是一个对概率取值区间[0,1]的划分,考虑到DNN模型输出概率的非均匀性,取对数划分,即:
c(0)=0
c(i)=10i-N i=1,2,3...,N。
可选的,所述方法还包括:
根据预设数据进行DNN模型训练。
根据本发明的另一个方面,提供了一种英语口语自动打分系统,该系统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普强信息技术(北京)有限公司;清华大学,未经普强信息技术(北京)有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510259574.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:能识别音乐自动成谱的方法
- 下一篇:语音合成方法和系统





