[发明专利]一种融合场景匹配的中文手语翻译模型构建方法及装置有效
申请号: | 202011567997.0 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112668464B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 陈斌;牟中强 | 申请(专利权)人: | 株洲手之声信息科技有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/764;G06V10/75;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清;胡君 |
地址: | 412007 湖南省株洲市天*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 场景 匹配 中文 手语 翻译 模型 构建 方法 装置 | ||
本发明公开一种融合场景匹配的中文手语翻译模型构建方法及装置,该方法步骤包括:S1.构建不同场景下手语动作与单词之间映射关系的手语单词识别模型,以及构建不同场景词汇与手语动作之间映射关系的场景匹配模型;S2.分别对手语单词识别模型、场景匹配模型进行训练,得到训练后的手语单词识别模型、场景匹配模型;S3.将训练后的手语单词识别模型、场景匹配模型进行级联,形成中文手语翻译模型,获取手语动作数据集并分别输入至中文手语翻译模型的手语单词识别模型、场景匹配模型中以进行模型更新,直至手语单词识别模型与场景匹配模型达到动态平衡,得到最终的中文手语翻译模型。本发明具有实现方法简单、构建效率高且准确性高等优点。
技术领域
本发明涉及中文手语翻译技术领域,尤其涉及一种融合场景匹配的中文手语翻译模型构建方法及装置。
背景技术
目前手语翻译中主要是通过穿戴式设备或图像传感设备获取用户体态特征,如使用Leap Motion体感控制器获取用户手掌、手腕的骨骼关节点三维坐标,计算出体态特征信息后,通过模板匹配的方式分析用户手语含义。考录到穿戴式设备会存在成本高、便携性差、在进行手语表达的过程中对用户的行为会产生不确定性扰动等问题,目前通常是通过使用图像传感设备进行图像或视频的采集。
随着深度学习的发展,使用神经网络能挖掘图像中更深、更抽象的特征,建立关联性更强的特征到手语文本映射。如使用AlexNet对输入图像进行特征提取,在神经网络的基础上使用注意力机制对输入图像序列的时空信息进行编解码,获取手语文本信息;或在级联注意力网络的基础上,使用双流三维卷积网络(two-stream 3D CNN)分别对用户全局运动信息和局部手势信息进行提取,实现手势主导的手语翻译任务果。但是上述方法在翻译过程中均是直接使用手语动作与翻译结果之间映射关系的神经网络模型,就未考虑手语场景对语境的主导性因素,由于中文手语翻译具有连词成句的特点,一些手语动作在不同语境或手语场景下会具有不同的含义,上述翻译模型就忽视了中文手语行为在不同场景下的多义性,缺少手语行为的场景类别特征,无法建立手语行为语义与手语场景之间的映射关系。因此,若能够在中文手语翻译模型中结合场景类型,以使得能对听障人士手语内容中重点语义进行捕捉,分析听障人士手语内容表达的语境,定位特定手语场景,可以优化中文手语翻译模型,有效提高中文手语翻译的准确性。
针对自然场景的识别,目前通常是简单的将场景分类任务设定为单标签类,在海量标签数据的驱动下使用神经网络对场景进行识别分类,然而真实场景通常包含多个标签信息,这些标签可能对应于不同场景中的对象及物体,会导致对场景的分类造成误判,若在翻译模型的基础上直接引入场景分类模型,即额外建立场景分类模型,直接使用场景分类模型的分类结果进行翻译,若场景分类模型精度不高,极易由于场景分类模型分类错误而进一步导致翻译不准确。
综上所述,目前针对中文手语的翻译任务研究仍停留在从手语行为特征提取到手语文本映射的初级阶段,并未对其在不同场景、语境下手语多义性的影响做进一步的探索;同时,当前的中文手语翻译未能有效利用手语场景对翻译结果进行再优化,也限制了中文手语翻译准确性的提升,而直接引入场景分类又存在受场景分类模型分类精度影响的问题。因此,亟需提供一种针对中文手语翻译模型的构建方法,以考虑中文手语翻译场景对手语文本多义性的影响,融合场景匹配优化手语翻译模型,同时尽可能提高手语翻译的效率以及准确性。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、构建效率以及准确性高的融合场景匹配的中文手语翻译模型构建方法及装置,能够融合不同场景实现中文手语翻译模型的构建。
为解决上述技术问题,本发明提出的技术方案为:
一种融合场景匹配的中文手语翻译模型构建方法,步骤包括:
S1.模型构建:基于深度学习模型,构建不同场景下手语动作与单词之间映射关系的手语单词识别模型,以及构建不同场景词汇与手语动作之间映射关系的场景匹配模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株洲手之声信息科技有限公司,未经株洲手之声信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011567997.0/2.html,转载请声明来源钻瓜专利网。