[发明专利]基于yolov3端到端手语识别技术在审

申请号：	202010961692.1	申请日：	2020-09-14
公开（公告）号：	CN112149540A	公开（公告）日：	2020-12-29
发明（设计）人：	王斌;杨晓春;曲彦秋	申请（专利权）人：	东北大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京君泊知识产权代理有限公司 11496	代理人：	李丹
地址：	110000 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 yolov3 端到端手语识别技术
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及基于yolov3端到端手语识别技术，解决了现有技术中哑语识别系统的识别率低和实时性差的问题。基于yolov3端到端手语识别技术，所述技术包括以下步骤：S1：采集手的手掌和手腕关节点的坐标信息，并对肢体及面部表情进行关键点标定。本发明通过利用yolov3算法捕捉每一帧照片中手和头部的特征，形成局部和整体的神经网络模型，将手和头的特征转换成特征向量，再利用经典的end2end模型对一帧帧图片分类，结合基于yolov3算法的局部和整体的特征图谱的堆叠形成哑语句子，从而实现了哑语的翻译，利用现有成熟的yolov3算法和end2end模型组合，形成了一套可实时翻译的手语识别技术，实现了一种识别率高、实时性强的基于yolov3端到端手语识别技术。

技术领域

本发明涉及基于yolov3端到端手语识别技术。

背景技术

哑语是聋哑人进行信息交流和交际的最自然的方法，也是聋哑学校进行教学和传递思想的重要途径。目前在中国的哑语教科书中包括大约5500个常规手势，每个手势对应一个汉语词。哑语识别的目的是通过计算机提供一种有效且准确的机制，将哑语翻译成文本或者语音使得聋哑人和听力正常的人之间的交流变得更加方便，快捷。

最开始出现的手语翻译系统是基于数据手套的，识别效果比较可观，但造价昂贵，也不利于携带。人们便逐渐聚焦在基于视觉的手语翻译系统的研究中，但却也面临着系统识别率低和实时性差等问题，对手语翻译系统的普及造成很大的困难；

因而，现提出一种识别率高、实时性强的基于yolov3端到端手语识别技术。

发明内容

本发明的目的是提供基于yolov3端到端手语识别技术，解决了现有技术中哑语识别准确度差的问题。

为了实现上述目的，本发明采用了如下技术方案：

基于yolov3端到端手语识别技术，所述技术包括以下步骤：

S1：采集手的手掌和手腕关节点的坐标信息，并对肢体及面部表情进行关键点标定；

S2：对任意尺寸的视频进行平均值填充操作，使得视频的宽高比例为1:1，然后再对视频进行统一的缩放操作，统一缩放到尺寸为224×224大小的视频，最后，对图片进行颜色转换，锐化，通道变换等操作来扩展数据集的大小；

S3：搭建提取手势局部信息的神经网络模型；

S4：搭建提取整体全局信息的神经网络模型；

S5：将S3和S4中模型输出的两个特征图谱沿着图谱的维度进行拼接，堆叠在一起；

S6：对视频中的哑语动作所对应的文本信息进行词向量嵌入编码，结合S5所得到的特征图谱，生成哑语句子。

优选的，所述步骤S3中，采用yolov3算法搭建提取手势局部信息的神经网络模型，其具体步骤如下：(1)利用yolov3目标检测算法对手部信息进行跟踪检测，提前根据标定的手部边框标签信息对yolov3目标检测模型进行预训练；(2)在得到手部信息的边框坐标后，对边框进行不同尺度的放缩；(3)将放缩处理后的手部信息数据送入到搭建好的卷积神经网络模型中进行训练，提取手部的特征向量。

优选的，所述所述步骤S4中，搭建提取整体全局信息的神经网络模型，具体包括以下步骤：(1)对整个输入的视频流中的图片帧进行同样的不同尺度的放缩操作；(2)搭建类似于S3的(3)中的模型结构，且参数设置为针对整体全局信息而言；(3)将处理好的整个视频流输入到全局卷积神经网络中进行训练，提出视频的整体全局特征。

本发明至少具备以下有益效果：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东北大学，未经东北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010961692.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于yolov3端到端手语识别技术在审

专利文献下载