[发明专利]一种手语视频翻译模型的训练方法、翻译方法及系统有效
申请号: | 202011032048.2 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112257513B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 陈玉明;戈康启;秦午阳;徐鹏翔;何毅;梅雪 | 申请(专利权)人: | 南京工业大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/764;G06V10/774;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 江苏瑞途律师事务所 32346 | 代理人: | 蒋海军 |
地址: | 211816 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手语 视频 翻译 模型 训练 方法 系统 | ||
本发明公开了一种手语视频翻译模型的训练方法、翻译方法及系统,属于模式识别与智能系统领域。本发明首先对孤立词数据集中的手语视频数据进行预处理,提取手语视频中人物区域,并利用Mask R‑CNN网络模型对运动的手部进行检测和跟踪,使用第一网络模块提取手部特征,使用第二网络模块提取人体特征;将所提取的手部特征与人体特征利用全连接层进行特征信息融合,训练得到孤立词的权重模型;将所得到孤立词的权重模型作为第三网络模块的预训练模型,并利用第三网络模块对连续语句视频进行特征提取;将提取结果,输入Seq2Seq模型中进行训练,得到训练好的手语视频翻译模型,并进一步地提出了翻译方法和系统架构。本发明对手语视频翻译的效果好,准确率高。
技术领域
本发明属于模式识别与智能系统领域,具体涉及一种手语视频翻译模型的训练方法、翻译方法及系统。
背景技术
我国聋哑人士的数量已达两千多万,手语是聋哑人与外界沟通的主要方式,它是由手型、动作、表情、姿势等共同构成的一套交际工具。我国已经在2018年出台了通用手语标准,但是精通手语的健听人很少,听力受损的群体很难向正常人传达自己的想法与意图,这使得聋哑人的生活与出行依然面临着许多困难。手语识别这一借助机器翻译手语的技术可以方便聋哑人与正常人进行交流,同时,手语识别也可以应用到人机交互领域,满足人与计算机交互自然性越来越高的要求。
目前已有的手语识别技术可以分为两类:接触式和非接触式。手语翻译手套就是典型的接触式装置,戴上手语翻译手套演示手语,手套上的传感器对肢体动作进行分析,然后转化成文字或语音输出,但是这种手套成本昂贵且不便携带,尚不具备很好的实用价值。
非接触式手语识别系统是一种基于视觉的系统,它的主要输入设备是摄像机,对摄像机输入的视频图像数据进行处理运算,这种方式也引入了一些挑战,例如手和手指位置的检测、分割和遮挡处理。手语视频中手部的形变与遮挡是一个主要问题,例如申请号为202010176300.0的中国专利公开了一种基于计算机视觉的手语翻译系统,该系统由语义库模块、坐标处理模块、数据处理模块、参考系模块、交叉训练模块与采集识别模块组成,其语义库模块用于构建语义库,搜集分析各手语动作的关键特征,并以此特征录制视频数据;其坐标处理模块与语义库模块连接,坐标处理模块关联openpose模型,利用openpose对左右手各设的21个关键点来标定每个动作视频帧中的手势,并将关键点的坐标输出保存为对应的json文件。该方案建立在openpose对手部关键点的提取上,依靠对关键点的跟踪来训练模型,但是openpose对形变大、易相互遮挡的手部关键点检测并不理想,在关键点缺失的情况下,模型将无法正常进行手语识别。
手语识别系统的扩展性、便捷性依然有待改进,例如申请号为201911039201.1的中国专利公开了一种基于机器学习的手语翻译方法及翻译设备,该方法包括:控制深度摄像头拍摄初始影像;采用连续手势识别框架识别初始影像中听障人士的手语信息;采用算法匹配模型匹配得到手语信息对应的若干文字词组;将若干文字词组智能组合为文字语句;输出手语信息对应的文字语句。该方案依赖于深度摄像头获取的视频深度信息,但是深度摄像头价格昂贵且不易普及,而人们日常生活中所使用的摄像头为RGB摄像头,拍摄的视频不具备深度信息。
手语识别的重点是手势和运动的表征,手势检测的难点在于速度快、形变大、以及遮挡,传统机器学习方法和检测网络不能有效地应对检测任务,从而检测效果差,识别准确率低。
发明内容
技术问题:本发明针对现有技术中,进行手语翻译时,检测效果差、翻译准确率低的问题,本发明提供一种手语视频翻译模型的训练方法、翻译方法及翻译系统,能够对手语进行更好的检测,提高手语视频翻译的准确率。
技术方案:本发明的手语视频翻译模型的训练方法,包括以下步骤:
步骤1:获取待识别的孤立词手语视频数据,建立手语孤立词数据集;
步骤2:对数据集中的手语视频数据进行预处理,提取手语视频中人物区域,去除背景干扰;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学,未经南京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011032048.2/2.html,转载请声明来源钻瓜专利网。