[发明专利]一种便携式唇语识别系统在审
申请号: | 202110294624.9 | 申请日: | 2021-03-19 |
公开(公告)号: | CN113283284A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 于真;王楠;沈希臻 | 申请(专利权)人: | 成都理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610059 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 便携式 识别 系统 | ||
本发明公开了一种用于唇读的识别技术,该技术包括硬件和软件系统两大部分。硬件部分包括MCU、电源模块、采集模块、显示屏、外围模块。软件部分包括采集唇部图像、对唇部图像进行处理、训练模型、得到所需要的模型文件、测试模型文件的识别准确度是否达到预期要求。通过实验结果调节模型所涉及的参数,进行验证和比对,进而实现唇语识别。该发明主要目的在于实现便携式唇语识别系统,建立一种高效便捷的通信方式,方便听障人群在嘈杂环境也能很好的交流。
技术领域
本发明属于唇语识别技术领域,具体为一种便携式唇语识别系统。
背景技术
唇读是一项复杂的技术,将计算机视觉和自然语言处理集成在一起。该技术指通过捕捉说话者的嘴唇动作来识别人们在说什么,尤其在嘈杂环境下,人要更加依赖观察对方的嘴唇运动来判断其说话内容;例如聋哑人群与其他人的交流必须依赖于对方的唇动视觉信息。已有研究证明,唇动视觉信息是说话内容的重要载体,唇读技术可以通过基于增强学习的视觉感知来补充语音信息。唇语识别技术也获得了广泛的关注,被应用到案件侦破、辅助语音识别、虚拟现实系统等领域。
近年来,由于深度学习的发展,使得唇语识别技术也得到突破性的进展。提取嘴唇特征方式由ANN,SVM,HMM等传统模型转换成CNN、LSTM、GRU等深度神经网络模型,显著提高了唇读准确率和训练时间。现阶段唇语系统中的模型对于唇语的识别精度很高,但是实用性不强,没有正式在生活中使用。一是,模型都是基于gpu或cpu训练,在pc端容易实现,但pc端移动性差,且无法在简单的设备中部署;二是智能手机有很强的人机交互性且移动性强,但是受本身电路板组件的空间的限制,不允许有相应的USB,HDMI和其他接口。
发明内容
为了解决嘴唇特征提取具有时序信息以及硬件方面的不足,本发明提供了基于混合神经网络的便携式唇语识别系统,以解决唇语系统的唇部特征提取和不实用性等问题。其具体方案如下:
第一方面,本申请实例提供了一种唇部图像特征的提取方法,包括:
通过连接到树莓派4B的免驱动CSI摄像头获得待识别的唇读视频,并存储起来。
然后对存储的唇读视频,使用STCNN网络进行视频帧处理得到连续的唇部特征序列;再通过基于注意力机制的双向卷积长短时网络对唇部特征序列进行时序编码和学习不同时刻的注意力权重;最后通过softmax和CTC函数预测最终的识别结果。
第二方面,本申请实例提供了一种便携式唇语识别系统,包括:
硬件系统:由CSI摄像头、显示屏以及树莓派和其他外围模块组成。
软件系统:主要是对唇读视频进行视频帧处理以及对唇部图像进行时序编码的混合神经网络模型。使这些模型能在树莓派进行训练,并显示处理后的唇读信息。
整个系统的运行流程为:1、使用摄像头获得待识别的唇读视频。2、应用混合神经网络模型对唇读视频进行特征处理以及识别。3、将识别得到的结果显示在屏幕上。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实例提供的一种便携式唇语识别系统整体框架示意图。
图2为本申请实例提供的一种便携式唇语识别系统硬件结构示意图。
图3为本申请实例提供的一种便携式唇语识别系统软件整体设计方案。
图4为本申请实例提供的一种便携式唇语识别系统软件流程设计图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都理工大学,未经成都理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110294624.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于垃圾处理机的搅拌轴部件
- 下一篇:一种基于远端操作的机器人系统