[发明专利]一种中文唇语识别建模单元集的构建方法在审
申请号: | 202110017780.0 | 申请日: | 2021-01-07 |
公开(公告)号: | CN112766101A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 袁家斌;何珊 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈国强 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 识别 建模 单元 构建 方法 | ||
本发明公开一种中文唇语识别建模单元集的构建方法,包括以下步骤,首先,对中文发音的声学特点和发音原理进行研究;然后,总结了几种常见的中文唇语识别建模单元集,包括词、音节、声韵母和中文音素,并给出它们各自的优缺点和适用性;最终,基于现存建模单元集的不足并通过对于中文发音视觉特点进行分析,提出了一个新的建模单元集——“视觉拼音”。本发明实施于中文唇语识别,相比于其他的建模单元集,采用本发明的技术方案将通过降低识别维度,有效减少中文发音的视觉歧义性,进而提高中文唇语识别准确率。
技术领域
本发明属于唇语识别技术领域,具体涉及一种中文唇语识别建模单元集的构建方法。
背景技术
随着人工智能的发展,深度学习技术逐渐崛起并开始渗透到人们生活的方方面面,其在大数据处理、音视频处理和自然语言处理等领域均取得了瞩目的进展并与人类的生产生活紧密结合。而且随着技术发展和现实需要,深度学习早已不再局限于解决单一领域问题,而是开始追求多领域、多技术的融合研究。因此,利用深度学习进行多领域、多技术的融合研究是大势所趋,且非常具有现实意义。而唇语识别便是这样一种融合了图像识别、语音识别和自然语言识别等多领域技术的研究课题,由于这些领域的技术在飞速发展,为唇语识别的研究提供了有力的技术支持,同时,唇语识别的研究也在推动着这些领域交叉融合。
唇语识别技术及其应用是目前国际上研究的热门课题之一,由于其非常具有实用性,能为很多场景带来便利并发挥辅助性作用,因此这种自动化应用将拥有巨大的市场经济价值,具有广阔的应用前景:复杂环境下的语音识别、反作弊与活体检测、口型矫正、辅助听障人士正常交流和识别无声视频中的内容等。
唇语识别同语音识别一样,在建模之前要选取合适的建模单元集,建模单元集的合理与否与模型的识别率直接相关。一般来说,建模单元集的选取和构建通常需要考虑到以下几项原则:代表性、可训练性和推广性。即构建的建模单元集要能够准确且有代表性地描述出任何语句序列,且有足够多的数据能够对建模单元进行可靠预测,同时还要兼具可沿用性,易于表达新词。
中文唇语识别研究起步相对较晚,虽然中文唇语识别研究已经有了一些成果,但相较于英文还是存在不小的落差。主要原因在于中英文的发音规则有着非常大的差别,因此,探索合适的建模单元集对中文唇语识别工作有着非常大的意义和作用。
发明内容
为了解决现有技术中的问题,本发明提出一种中文唇语识别建模单元集的构建方法。为了使唇语识别方法与中文更加适配,也为了提升其识别率,提出了“视觉拼音”这一概念,视觉拼音本质上就是中文发音的视觉呈现,通过对唇形表达上易混淆的发音口型,最终映射得到的结果就被命名为视觉拼音。视觉拼音的引进更有助于中文唇语视频的解析,使得唇语识别的准确率更高。
为实现上述目的,本发明采用的技术方案为:
一种中文唇语识别建模单元集的构建方法,包括以下步骤:
步骤1,总结出若干种常见的中文唇语识别建模单元集,分析得到的若干种建模单元集各自的优缺点和适用性,得到其中表现最好的建模单元集,即中文音素;
步骤2,结合中文发音的视觉特点和步骤1提到的中文音素,建立一个名称为视觉拼音的中文唇语识别建模单元集;
步骤3,为了确定步骤2中的视觉拼音组成,首先将64×80像素的唇部视频帧序列输入到一个10层的卷积神经网络,提取得到512维的嘴唇特征向量;
步骤4,以步骤1提到的中文音素作为建模单元,将步骤3得到的嘴唇特征向量输入到带有注意机制的序列到序列模型,得到中文音素序列;
步骤5,重复步骤3和步骤4,为预测得到的中文音素序列和与之对应的目标中文音素序列建立混淆矩阵,对中文音素的混淆程度进行归类;
步骤6,通过对中文发音规律的总结,在步骤5所得归类结果的基础上进行补充和调整,得到最终的视觉拼音;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110017780.0/2.html,转载请声明来源钻瓜专利网。