[发明专利]一种基于音调的级联序列到序列模型的中文唇语识别方法在审
| 申请号: | 201911259483.6 | 申请日: | 2019-12-10 |
| 公开(公告)号: | CN111178157A | 公开(公告)日: | 2020-05-19 |
| 发明(设计)人: | 宋明黎;赵雅;许睿 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/151;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 音调 级联 序列 模型 中文 识别 方法 | ||
一种基于音调的级联序列到序列模型的中文唇语识别方法,包含如下步骤:1)准备实验数据;2)建立拼音序列预测子模型;3)训练拼音序列预测子模型;4)建立音调序列预测子模型;5)训练音调序列预测子模型;6)建立汉字序列预测子模型;7)训练汉字序列预测子模型;8)建立唇语识别模型;9)训练唇语识别模型;10)获得中文唇语识别结果。本发明针对中文语言特点,将音调信息引入到中文唇语识别问题中,提出了一种基于音调的级联序列到序列模型的中文唇语识别方法。通过依次预测拼音序列、音调序列和汉字序列挖掘汉字语言特征,并将多个阶段的预测结果融合起来共同预测汉字序列,从而提高唇语识别准确率。
技术领域
本发明属于唇语识别技术领域,针对中文语言特点,提出了一种基于音调的级联序列到序列模型的中文唇语识别方法。
背景技术
唇语识别旨在从视频中观察人嘴唇运动,从而识别出对应的文本内容。唇语识别技术在辅助语音识别、公共安全分析、动画口型合成以及身份认证等领域均有广阔的应用前景。唇语识别在计算机视觉研究中具有很大的挑战性,因为大多数的嘴唇运动是无法直接观察到的,比如舌头的运动,这导致看似相同的嘴唇运动却可以产生不同的内容。
随着深度学习的发展,针对英语的唇语识别方法取得了很大的进步。但是,作为使用者最多的语言,很少有针对中文的唇语识别工作。LipCH-Net是第一篇句子级别的中文普通话唇语识别论文。LipCH-Net使用两个深度神经网络模型来执行“视频到拼音”的识别以及“拼音到汉字”的识别,然后执行联合优化以提高整体性能。
中文和英文属于两个不同的语言体系,他们之间存在着很多差异。其中最显著的一点是:中文是声调语言,而英语不是。声调的使用加大了中文唇语识别的难度,即使两个词语在发音时从表情上看起来是相同,它们也可能具有不同的音调,因此具有不同的含义。因此,声调是提高中文普通话唇语识别准确率的一个重要因素。
发明内容
本发明要克服现有唇语识别技术没有充分考虑中文语言特征的缺点,提出一种基于音调的级联序列到序列模型的中文唇语识别方法。
一种基于音调的级联序列到序列模型的中文唇语识别方法,包括如下步骤:
1)实验数据准备;
使用中文唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点。利用仿射变换,将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐。截取对齐后的人脸图像的下半部分,并将彩色图转化为灰度图。以滑动窗口的方式制作唇部图像序列,窗口大小为5帧为1组,步长为2帧。用x=[x1,x2,…,xI]表示唇部图像序列,I为序列长度。利用汉字转拼音工具,获取中文唇语识别数据集中的目标汉字序列y=[y1,y2,…yJ]对应的拼音序列p=[p1,p2,…pJ]和音调序列t=[t1,t2,…tJ]。
2)拼音序列预测子模型的建立;
用唇部图像序列x=[x1,x2,…,xI]及其对应拼音序列p=[p1,p2,…pJ],构建基于注意力机制的序列到序列模型。应用于拼音序列的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、视频编码模块、拼音解码模块。
图像特征提取模块:采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
fi=CNN(xi) (1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911259483.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种灵敏放大器电路
- 下一篇:一种信用评估方法和装置





