[发明专利]基于唇语识别的重度听障患者言语理解度的改进方法在审
申请号: | 202011346536.0 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112330713A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 唐闺臣;王沛;梁瑞宇;王青云;李克;邹采荣;谢跃;包永强 | 申请(专利权)人: | 南京工程学院 |
主分类号: | G06T7/207 | 分类号: | G06T7/207;G06N3/04;G06N3/08 |
代理公司: | 南京睿之博知识产权代理有限公司 32296 | 代理人: | 刘菊兰 |
地址: | 211167 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 识别 重度 患者 言语 理解 改进 方法 | ||
本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,包括:使用图像采集设备从现实环境中采集唇部运动图像序列,作为深度神经网络的输入特征;构建基于深度学习的视觉模态语音端点检测方法,在低信噪比条件下确认语音段位置;构建基于三维卷积‑残差网络‑双向GRU结构的深度学习模型作为基线模型;在基线模型的基础上构建基于时空信息特征的唇语识别模型;利用交叉熵损失训练网络模型,根据训练后的唇语识别模型识别出说话内容。本发明通过时空信息反馈来捕捉唇语图像的细粒度特征和时域关键帧,从而提高对复杂环境中唇语特征的适应性,提高唇语识别性能,改善了重度听障患者的语言理解能力,具有良好的应用前景。
技术领域
本发明属于言语理解领域,具体涉及一种基于唇语识别的重度听障患者言语理解度的改进方法。
背景技术
对于重度以上听障患者来说,由于其听觉心理或生理存在严重的损伤,因此几乎无法有效理解其他说话人表达的语言内容,甚至都无法感知声音。虽然助听器可以部分改善患者的听觉感知能力,但是对于重度以上听障患者来说,其实际作用有限。听觉耳蜗虽然可以改善重度以上听障患者的言语感知能力,但是由于听觉耳蜗需要做手术,存在一定的风险。
而且,在复杂实际环境中,语音信号常常伴随各种类型的噪声和瞬时干扰,尤其是在低信噪比条件下,即使正常听力者有时都不能有效感知声音。然而,视觉模态的嘴唇运动信息不会受到声学环境的干扰,且与言语感知任务具有强相关性。因此,基于唇语识别的言语理解方法是改善重度以上听障患者的言语感知能力的有效方法。
早期唇语识别的传统方法流程包括:嘴唇检测、特征提取和分类器分类。其技术核心主要包括用HOG等特征提取算法捕捉嘴唇的几何特征,利用隐藏马尔科夫模型识别特征序列。这类方法在特征提取和时序建模方面的效果都及其有限,在大规模数据集以及现实环境中的表现不佳,不具备实用性。
近年来深度学习算法在唇语识别领域取得了比传统算法更好的识别效果。比如卷积神经网络配合长短时记忆网络,在一定程度上提升了唇语识别的准确率,但是唇语识别任务目前还存在很多难点和挑战:
(1)现有算法难以捕捉唇部的细粒度特征;
(2)不能解决特征的长短时依赖的问题;
(3)不能抑制词语边界划分不精准所带来的冗余信息。
通过上述的描述,建立一种能够高准确率和高鲁棒性的唇语识别模型,从而改善重度听障患者的言语理解方法具有重要研究意义。
发明内容
发明目的:针对现有技术中言语助听方法对重度以上听障患者作用有限的问题,本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,通过引入空间信息反馈模块和时间信息反馈模块来辅助训练,从而捕捉唇部的细粒度特征、解决长短时依赖、抑制词语的冗余信息,提升唇语识别的鲁棒性和准确率,方法巧妙新颖,具有良好的应用前景。
技术方案:本发明采用如下技术方案:一种基于唇语识别的重度听障患者言语理解度的改进方法,其特征在于,包括如下步骤:
步骤A、使用图像采集设备从现实环境中采集唇部运动图像序列;
步骤B、构建基于深度学习的视觉模态语音端点检测方法,使用关键点检测预估唇部的运动状态及其相对位置,确认唇部运动图像序列中语音段的位置;
步骤C、构建基于三维卷积-残差网络-双向GRU结构的深度学习模型作为基线模型,输入语音段位置的唇部运动图像序列,输出语音段位置的唇部运动图像序列所代表的单词;
步骤D、在步骤C中基线模型的基础上分别引入空间信息反馈模块和时间信息反馈模块,构建基于时空信息特征的唇语识别模型;
步骤E、利用交叉熵损失训练唇语识别模型,根据训练后的唇语识别模型,输入步骤B中获取的语音段位置的唇部运动图像序列,识别出对应的说话内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工程学院,未经南京工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011346536.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高度可调的钢琴
- 下一篇:一种便于使用的新型钢琴