[发明专利]基于唇语识别的重度听障患者言语理解度的改进方法在审
申请号: | 202011346536.0 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112330713A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 唐闺臣;王沛;梁瑞宇;王青云;李克;邹采荣;谢跃;包永强 | 申请(专利权)人: | 南京工程学院 |
主分类号: | G06T7/207 | 分类号: | G06T7/207;G06N3/04;G06N3/08 |
代理公司: | 南京睿之博知识产权代理有限公司 32296 | 代理人: | 刘菊兰 |
地址: | 211167 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 识别 重度 患者 言语 理解 改进 方法 | ||
1.一种基于唇语识别的重度听障患者言语理解度的改进方法,其特征在于,包括如下步骤:
步骤A、使用图像采集设备从现实环境中采集唇部运动图像序列;
步骤B、构建基于深度学习的视觉模态语音端点检测方法,使用关键点检测预估唇部的运动状态及其相对位置,确认唇部运动图像序列中语音段的位置;
步骤C、构建基于三维卷积-残差网络-双向GRU结构的深度学习模型作为基线模型,输入语音段位置的唇部运动图像序列,输出语音段位置的唇部运动图像序列所代表的单词;
步骤D、在步骤C中基线模型的基础上分别引入空间信息反馈模块和时间信息反馈模块,构建基于时空信息特征的唇语识别模型;
步骤E、利用交叉熵损失训练唇语识别模型,根据训练后的唇语识别模型,输入步骤B中获取的语音段位置的唇部运动图像序列,识别出对应的说话内容。
2.根据权利要求1所述的一种基于唇语识别的重度听障患者言语理解度的改进方法,其特征在于,步骤B操作如下:
步骤B1、构建关键点检测模型,关键点检测模型包括依次连接的6层深度可分离卷积网络和3层多尺度卷积网络以及全连接层,输入唇部运动图像序列,输出唇部及其周边的关键点的位置信息序列;
步骤B2、将步骤B1得到的关键点分组,其中每一组包括2个关键点且分别位于唇部的上方和下方,计算所有组关键点的平均L2距离序列,并在时序上求均方差:
其中,N表示关键点分组的数目;为t时刻第n组关键点的坐标,i=1,2;Mt为t时刻的平均L2距离序列;为Mt序列中t时刻向前选取连续T个值的均值;St为t时刻的均方差;
步骤B3、对均方差进行时域卷积得到唇部运动系数,根据唇部运动系数确定唇部运动图像序列中语音段的位置:
其中,K为时域卷积的窗口长度,K≤T;C为唇部运动系数;Thresh为判断是否为语音段的阈值;isSpeaking=True表示上述卷积窗口内对应的唇部运动图像序列是语音段;isSpeaking=False表示上述卷积窗口内对应的唇部运动图像序列不是语音段。
3.根据权利要求1所述的一种基于唇语识别的重度听障患者言语理解度的改进方法,其特征在于,步骤C中,基线模型包括依次连接的三维卷积网络、残差网络、双向门控循环单元和第一全连接层;其中,以三维卷积网络和残差网络作为前端,学习唇部运动图像序列的时空特征;以双向门控循环单元和第一全连接层作为后端,对特征的时序关系建模;由第一全连接层将特征映射为输入的唇部运动图像序列所代表的单词。
4.根据权利要求3所述的一种基于唇语识别的重度听障患者言语理解度的改进方法,其特征在于,步骤D中,构建唇语识别模型操作如下:
步骤D1、引入空间信息反馈模块,用于捕获每一帧图像上的唇部细粒度特征:
空间信息反馈模块包括依次连接的两层1×1卷积层和sigmoid激活函数,空间信息反馈模块的输入端连接残差网络的输出端,将残差网络的输出和复制扩展后的给定的单词标签向量拼接后输入空间信息反馈模块,空间信息反馈模块的输出端连接残差网络的输入端;
步骤D2、引入时间信息反馈模块,用于确定每一帧唇形的重要程度:
在残差网络的输出端额外引入依次连接的一层门控循环单元和自注意力机制,门控循环单元的输入端连接残差网络的输出端,自注意力机制的输出端连接双向门控循环单元的输入端;
时间信息反馈模块包括依次连接的第二全连接层和sigmoid激活函数,时间信息反馈模块的输入端连接第一全连接层的输出端,将复制扩展后的第一全连接层的输出和复制扩展后的给定的单词标签向量拼接后输入时间信息反馈模块,时间信息反馈模块的输出端连接自注意力机制的输入端;
步骤D3、得到唇语识别模型输出为:
其中,为唇语识别模型输出的预测向量,N为标签向量维数,i为分类的类别序号,oi为第一全连接层对应第i个类别的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工程学院,未经南京工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011346536.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高度可调的钢琴
- 下一篇:一种便于使用的新型钢琴