[发明专利]基于yolov3端到端手语识别技术在审
| 申请号: | 202010961692.1 | 申请日: | 2020-09-14 |
| 公开(公告)号: | CN112149540A | 公开(公告)日: | 2020-12-29 |
| 发明(设计)人: | 王斌;杨晓春;曲彦秋 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京君泊知识产权代理有限公司 11496 | 代理人: | 李丹 |
| 地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 yolov3 端到端 手语 识别 技术 | ||
本发明涉及基于yolov3端到端手语识别技术,解决了现有技术中哑语识别系统的识别率低和实时性差的问题。基于yolov3端到端手语识别技术,所述技术包括以下步骤:S1:采集手的手掌和手腕关节点的坐标信息,并对肢体及面部表情进行关键点标定。本发明通过利用yolov3算法捕捉每一帧照片中手和头部的特征,形成局部和整体的神经网络模型,将手和头的特征转换成特征向量,再利用经典的end2end模型对一帧帧图片分类,结合基于yolov3算法的局部和整体的特征图谱的堆叠形成哑语句子,从而实现了哑语的翻译,利用现有成熟的yolov3算法和end2end模型组合,形成了一套可实时翻译的手语识别技术,实现了一种识别率高、实时性强的基于yolov3端到端手语识别技术。
技术领域
本发明涉及基于yolov3端到端手语识别技术。
背景技术
哑语是聋哑人进行信息交流和交际的最自然的方法,也是聋哑学校进行教学和传递思想的重要途径。目前在中国的哑语教科书中包括大约5500个常规手势,每个手势对应一个汉语词。哑语识别的目的是通过计算机提供一种有效且准确的机制,将哑语翻译成文本或者语音使得聋哑人和听力正常的人之间的交流变得更加方便,快捷。
最开始出现的手语翻译系统是基于数据手套的,识别效果比较可观,但造价昂贵,也不利于携带。人们便逐渐聚焦在基于视觉的手语翻译系统的研究中,但却也面临着系统识别率低和实时性差等问题,对手语翻译系统的普及造成很大的困难;
因而,现提出一种识别率高、实时性强的基于yolov3端到端手语识别技术。
发明内容
本发明的目的是提供基于yolov3端到端手语识别技术,解决了现有技术中哑语识别准确度差的问题。
为了实现上述目的,本发明采用了如下技术方案:
基于yolov3端到端手语识别技术,所述技术包括以下步骤:
S1:采集手的手掌和手腕关节点的坐标信息,并对肢体及面部表情进行关键点标定;
S2:对任意尺寸的视频进行平均值填充操作,使得视频的宽高比例为1:1,然后再对视频进行统一的缩放操作,统一缩放到尺寸为224×224大小的视频,最后,对图片进行颜色转换,锐化,通道变换等操作来扩展数据集的大小;
S3:搭建提取手势局部信息的神经网络模型;
S4:搭建提取整体全局信息的神经网络模型;
S5:将S3和S4中模型输出的两个特征图谱沿着图谱的维度进行拼接,堆叠在一起;
S6:对视频中的哑语动作所对应的文本信息进行词向量嵌入编码,结合S5所得到的特征图谱,生成哑语句子。
优选的,所述步骤S3中,采用yolov3算法搭建提取手势局部信息的神经网络模型,其具体步骤如下:(1)利用yolov3目标检测算法对手部信息进行跟踪检测,提前根据标定的手部边框标签信息对yolov3目标检测模型进行预训练;(2)在得到手部信息的边框坐标后,对边框进行不同尺度的放缩;(3)将放缩处理后的手部信息数据送入到搭建好的卷积神经网络模型中进行训练,提取手部的特征向量。
优选的,所述所述步骤S4中,搭建提取整体全局信息的神经网络模型,具体包括以下步骤:(1)对整个输入的视频流中的图片帧进行同样的不同尺度的放缩操作;(2)搭建类似于S3的(3)中的模型结构,且参数设置为针对整体全局信息而言;(3)将处理好的整个视频流输入到全局卷积神经网络中进行训练,提出视频的整体全局特征。
本发明至少具备以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010961692.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务资源访问方法和装置
- 下一篇:一种四脚拐杖





