[发明专利]一种方言语言的识别方法及虚拟现实教学方法和系统有效
| 申请号: | 201710708102.2 | 申请日: | 2017-08-17 |
| 公开(公告)号: | CN107452379B | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 刘志 | 申请(专利权)人: | 广州腾猴科技有限公司 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/00;G10L17/26;G10L15/08;G10L15/10;G10L15/02;G10L25/03 |
| 代理公司: | 广州海心联合专利代理事务所(普通合伙) 44295 | 代理人: | 黄为;任琳 |
| 地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 方言 语言 识别 方法 虚拟现实 教学方法 系统 | ||
1.一种方言语言的识别方法,其特征在于:包括以下处理步骤:
步骤1:将实时采集的语音数据传递至口音特征提取模块,并且通过口音特征提取模块对口音特征进行实时提取;
步骤2:口音特征分类模块根据提取的口音特征识别被采集者的口音所在地域和被采集者的性别,并且对被采集者的口音进行分类标注;
步骤3:口音识别模块根据被采集者的口音特征和所在区域及性别,从口音模型库中选择模型进行口音识别,将实时采集的语音数据转化成标准普通话;
在步骤1中,口音特征提取模块对口音特征进行实时提取包括以下处理步骤:
步骤201:对语音声调特征的提取,
首先提高采集的语音数据的平滑度,其中提高语音平滑度的加重函数为:
H(z)=1-az-1
其中,H(z)表示加重函数,为预处理后输出的数据值;z表示采集的语音数据,a为平滑系数,a的范围是[0.91];
然后对提高了语音平滑度的语音数据进行用于提高抗干扰性强和抗衰减性的分帧处理,该分帧的函数为:
s-1(n)=w(n)×s(n)
其中,s(n)表示平滑后的语音数据,s-1(n)表示分帧后的语音数据,w(n)表示分帧函数,w(n)的定义如下:
其中,n表示对应语音帧的长度,N表示语音帧的总帧数;
步骤202:对语音能量值的提取,
将对分帧处理后的每帧数据的能量值进行提取,该提取函数为:
其中,E(i)表示每帧数据的能量值函数,i表示帧的序号,N表示语音帧的总帧数,表示每帧的数据值;
步骤203:对语音基频的提取,
进行每一帧的能量值提取后,将每一帧数据的频率映射到基频上,该提取方法为:
F=2595lg(1+f/700)
其中,f表示语音的每一帧的频率,F表示提取的基频;
步骤204:对语音声调特征、语音能量值、语音基频的提取后,进行动静结合的混合特征音素提取,该提取方法为:
其中,C表示语音数据的音素,定义如下:
M(n)=(1-a2)M(n-1)
其中,a=0.35,n表示对应语音帧的长度;
所述口音模型库中选择的模型进行口音识别,将实时采集的语音数据转化成标准普通话的方法包括以下处理步骤,
步骤601:建立被采集者的口音特征集
(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n)),
并计算各口音特征的权、阈值,即
其中,ωi为口音特征的权、阈值,N表示语音帧的总帧数;
步骤602:依次计算每个ωi的误差和,即
步骤603:根据误差和计算第t个语音段的权重值,即
步骤604:根据第t个语音段的权重值β(t)调整ωi;
即ωi+1=ωi(1-l)β(t),其中,l为设定的值;
步骤605:对ωi进行归一化处理,输出即输出标准普通话。
2.根据权利要求1所述的一种方言语言的识别方法,其特征在于:在步骤2中,性别识别采用EM参数估计法来构建男女性别的高斯混合模型来识别,其过程为,首先对采集的语音数据进行基频提取,再通过建立的与男女性别高斯混合模型分别计算出与男女性别高斯混合模型之间的后验概率值(Sm,Sw),最后通过计算男性后验概率值-女性后验概率值Sm-Sw与0的大小,若结果大于0则为男,反之则为女。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州腾猴科技有限公司,未经广州腾猴科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710708102.2/1.html,转载请声明来源钻瓜专利网。





