[发明专利]一种基于视频输入的实时手语动作迁移方法及装置在审
申请号: | 202210558258.8 | 申请日: | 2022-05-21 |
公开(公告)号: | CN114937310A | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 熊蓉;张浩东;陈颖澔;吴禧洋;全泉 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/34;G06V10/44;G06V10/75;G06V10/82;G06N3/08 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 李亦慈;唐银益 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视频 输入 实时 手语 动作 迁移 方法 装置 | ||
本发明公开了一种基于视频输入的实时手语动作迁移方法及装置,该手语动作迁移系统,能够基于RGB视频输入对手语语句或单词进行实时迁移,生成机器人可执行的动作。整个系统由数据采集模块、人体位姿估计模块、数据处理模块、手语动作迁移模块和机器人执行模块组成,其中手语动作迁移模块采用隐空间优化算法,在图卷积神经网络构建的隐空间上对机器人动作进行优化,生成满足机器人运动学约束并具有相似性的动作。本发明可以将人演示的手语动作实时转换为机器人动作,帮助机器人获得手语技能,构建听力障碍人士和普通人之间沟通的桥梁。本发明实用性强,稳定性高,便于推广应用。
技术领域
本发明涉及一种手语动作迁移系统,特别是涉及一种基于视频输入的实时手语动作迁移方法及装置。
背景技术
从人到机器人的动作迁移学习通过学习人类的演示动作来简化机器人编程,可以有效降低对编程专业知识的要求,并能实现复杂的机器人动作的快速学习。如今,它已被应用于娱乐公园的仿人机器人和与听障人士交流的手语机器人。然而,由于人类和机器人之间的结构差异,这仍然是一个持续的挑战。尽管类人机械臂构型和人看起来相似,仍面临着自由度、模型参数和约束的差异。再加上对相似性、安全性和快速性的各种要求,这个问题变得难以解决。
据统计,目前我国拥有庞大的听障群体,至少有两千万人。听障人群平时使用手语进行交流,但是手语翻译行业却发展缓慢,手语翻译人员十分稀少,使得听障人群难以和外界进行有效的沟通,在日常生活上带来很大的不便。手语动作迁移任务具有广泛的社会需求,设计一套手语动作迁移系统帮助机器人获得手语技能是很有必要的,这有助于构建听障人群和普通人之间沟通的桥梁,帮助听障人群更好地融入社会、更好地生活。
传统方法通过人工定义人类演示者和机器人的关节的映射关系进行动作迁移,但很难适应不同机器人结构和满足动作相似性、安全性等要求。基于逆运动学的方法被用来保持机器人的末端位置与人类一致,而它没有考虑到机器人的约束和除末端以外其他关节的相似性。为了克服这些问题,人们提出了基于优化的方法,以寻找最大化运动相似性并满足机器人执行能力的最优解。它通常是通过定义和优化一个带有约束条件的目标函数来实现的。尽管这类方法能够产生令人满意的迁移结果,但它们需要花费大量的时间优化每个运动,而且初始化不当可能会导致陷入糟糕的局部极值。
基于深度学习的动作迁移是近年来机器人领域的研究热点之一,研究者将神经网络应用于不同的任务中,这些方法能够进行快速地推理,并在未见的任务上进行泛化。然而,大部分方法研究的是计算机图形学中动画人物的动作迁移。这些方法不能直接应用于从人到机器人的手语动作迁移的任务中,因为它们没有考虑到机器人的运动约束,从而导致机器人运动不准确或不可行。而且手指的运动是手语动作的重要组成部分,大部分方法只考虑了双臂运动,没有考虑手指运动。现有的一些方法使用传统优化算法的结果作为真值进行监督学习,会导致由拟合误差和优化误差组成的累积误差。
此外,现有的动作迁移算法严重依赖于精确的运动捕捉数据,这些数据是由大量昂贵的高精度相机和可穿戴的运动捕捉服收集的。用户在采集运动数据时,需要在一片空旷的场地架设大量昂贵的动作捕捉相机,并在身上关节处粘贴反光标记点,然后需要复杂的标定流程进行标定,最后通过三角测量算法计算人体关节数据。搭建一套运动捕捉系统,成本高昂,使用麻烦,同时对场地光照、大小、范围也有严格要求,环境中不能出现与标记点接近的干扰物。从视频中进行手语动作迁移,可以帮助我们减少搭建运动捕捉系统的麻烦,降低成本。因为获取视频数据要比收集运动捕捉数据容易得多,而且使用视频数据进行动作迁移还可以使其在现实生活中更容易应用推广。
发明内容
针对手语动作迁移任务的社会需求和存在的问题,本发明提供了一种实用性强、鲁棒性高、使用方便、成本低,便于推广使用的基于视频输入的实时手语动作迁移方法及装置。本发明使用RGB视频作为输入,通过人体位姿估计获得关节运动数据,采用图神经网络进行手语动作实时迁移,使算法能够更好地泛化到新的动作。将人类的骨架和机器人的结构建模为图,还可以更好地利用拓扑信息。
本发明所采用的具体技术方案是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210558258.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:液晶显示面板及液晶显示装置
- 下一篇:一种新型LED芯片封装结构及其制备方法