[发明专利]基于注意力机制的半监督连续手语翻译方法及装置有效
| 申请号: | 201810399532.5 | 申请日: | 2018-04-28 |
| 公开(公告)号: | CN108647603B | 公开(公告)日: | 2021-01-29 |
| 发明(设计)人: | 徐枫;薄子豪;雍俊海 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/45;G06F40/44;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
| 地址: | 10008*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 机制 监督 连续 手语 翻译 方法 装置 | ||
1.一种基于注意力机制的半监督连续手语翻译方法,其特征在于,包括以下步骤:
根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;
对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;
将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句;
所述全监督的训练还包括:
将语言模型作用为L:
其中,为解码器线性输出,则第j个输出片段属于类别i的概率为:
CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:
π∈B-1(y)={π|B(π}=y},
在输入下,输出词对齐序列为π的概率为:
对应样本文本输出y的概率为
词对齐模型的损失函数为:
LossCTC=-logPCTC(y|s)。
2.根据权利要求1所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,所述根据手语视频,通过手部区域检测网络,生成手部区域图像序列,进一步包括:
根据视频时间采样获取所述图像序列;
根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。
3.根据权利要求2所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,所述对所述手部区域图像序列和输出语言词汇编码,输入手语翻译模型,训练相应的词对齐序列,进一步包括:
对所述手部区域图像序列进行编码,并提取卷积神经网络特征;
通过词向量模型对翻译语句单词进行编码获取词特征序列;
将图像特征和所述词特征输入编码-解码结构的注意力机制语言模型,以对输出的连续时域分类损失函数进行最小化训练,并得到经过训练的词对齐序列。
4.根据权利要求3所述的基于注意力机制的半监督连续手语翻译方法,其特征在于,将所述词对齐序列作为解码输入,对所述手语翻译模型进行全监督的训练,生成连续手语翻译语句,进一步包括:
将所述词对齐序列作为编码输入目标,通过所述语言模型进行训练,根据输出单词序列分类交叉熵作为损失函数进行训练;
每得到一个生成词更新编码输入预测下一生成词,直至所述翻译语句结束。
5.一种基于注意力机制的半监督连续手语翻译装置,其特征在于,包括:
生成模块,用于根据输入的手语视频通过手部区域检测网络生成手部区域图像序列;
训练模块,用于对所述手部区域图像序列和输出语言词汇进行编码,以输入手语翻译模型,并训练相应的词对齐序列;
监督翻译模块,用于将所述相应的词对齐序列作为解码输入,以对所述手语翻译模型进行全监督训练,并生成连续手语翻译语句;所述全监督的训练还包括:
将语言模型作用为L:
其中,为解码器线性输出,则第j个输出片段属于类别i的概率为:
CTC词对齐模型输出词对齐序列为π,则使得π中剔除空白标签和连续重复标签得到的序列为y:
π∈B-1(y)={π|B(π}=y},
在输入下,输出词对齐序列为π的概率为:
则对应样本文本输出y的概率为
则词对齐模型的损失函数为:
LossCTC=-logPCTC(y|s)。
6.根据权利要求5所述的基于注意力机制的半监督连续手语翻译装置,其特征在于,所述生成模块还包括:
采样单元,用于根据视频时间采样获取所述图像序列;
提取单元,根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标,并提取手部区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810399532.5/1.html,转载请声明来源钻瓜专利网。





