[发明专利]一种语音纠正融合方法有效
| 申请号: | 202010947107.2 | 申请日: | 2020-09-10 |
| 公开(公告)号: | CN112037788B | 公开(公告)日: | 2021-08-24 |
| 发明(设计)人: | 许召辉;马翼平;徐淑波;陈年生;范光宇;饶蕾;孙焜;朱羿孜 | 申请(专利权)人: | 中航华东光电(上海)有限公司 |
| 主分类号: | G10L15/25 | 分类号: | G10L15/25;G10L15/26;G06F16/61;G06F16/71;G06K9/00 |
| 代理公司: | 上海乐泓专利代理事务所(普通合伙) 31385 | 代理人: | 张雪 |
| 地址: | 201114 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 纠正 融合 方法 | ||
1.一种语音纠正融合方法,其特征在于:同时采集发音者的声音数据和视频数据,对视频数据中采集的嘴型进行标点预处理,用字母标注嘴唇内部的六个点位,对预处理之后的图像进行测量并通过六个点位的位置计算嘴唇变化角度,将声音数据与音频数据库进行对比得到语音识别结果,嘴唇变化角度与嘴型数据库进行对比得到唇语识别结果;当语音识别结果和唇语识别结果匹配程度相同,则优先选择语音识别结果;当语音识别结果和唇语识别结果匹配程度不同,则优先选择唇语识别结果;所述六个点位分别为嘴唇内侧两边嘴角处为A、F点,上嘴唇的处为B、G点,下嘴唇的处为C、H点;还选取点B、点G的连线中点为D、选取点C、点H连线中点为E,测量角∠CAF和角∠BAF的大小、线段AF的长度和线段DE的长度;还包括计算评价函数判断语音,具体评价函数为
Pre=k*(p*Angle(a,b)+q*Line(LAF,LDE));
其中,k、p、q为各代价函数的权重系数,p、q为0.5,k的取值为不同地理区域的发音系数的数值,Angle(a,b)为嘴唇夹角的代价子函数,Line(LAF,LDE)为嘴唇张开程度的代价子函数。
2.根据权利要求1所述的一种语音纠正融合方法,其特征在于:在采集发音者的画面时,发音者的脸部需正对摄像头,摄像头先拍摄人脸并识别后开始拍摄发音者嘴唇位置。
3.根据权利要求1所述的一种语音纠正融合方法,其特征在于:在进行语音识别的过程中,需要在存储数据库中设置两个临时存储区域,用于存储音频信息和视频信息,两个临时存储区域用于存储音频流以及时间戳,在30秒内无明显音频输入则对两块区域进行保存再清空、或直接清空。
4.根据权利要求3所述的一种语音纠正融合方法,其特征在于:语音识别前需要进行语音唤醒,具体为通过特定的语音关键词进行唤醒,唤醒成功后开始进行语音接收和语音处理,对音频信息进行去噪和特征点采集,然后将预处理之后的结果音频与数据库中的标准音频进行匹配,并输出匹配程度P1;对视频信息为先进行人脸识别,再追踪嘴唇部分,分帧提取10张图进行比对,计算所得的10个Pre数值进行平均,求出结果Pra,将Pra与数据库中的Pre值进行比对,筛选出对应范围内的值,并输出与数据库的匹配程度P2,最后比较P1、P2大小,输出对应识别的结果。
5.根据权利要求3所述的一种语音纠正融合方法,其特征在于:所述音频数据库存储有预先设置好的方言发音的嘴型数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中航华东光电(上海)有限公司,未经中航华东光电(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010947107.2/1.html,转载请声明来源钻瓜专利网。





