[发明专利]一种针对低资源土家语的跨语言端到端语音识别方法在审
申请号: | 201811011859.7 | 申请日: | 2018-08-31 |
公开(公告)号: | CN109003601A | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 于重重;陈运兵;徐世璇;刘畅 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L15/16;G10L15/187 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音识别 端到端 国际音标 语言 预处理 解码 时序 编码字典 分类模型 统一编码 泛化性 语料库 准确率 构建 语料 语种 字典 迁移 中文 学习 | ||
本发明公开了一种针对低资源土家语的跨语言端到端语音识别方法,包括:土家语语料预处理;构建跨语言的土家语语料库;建立中文国际音标和民族国际音标的统一编码字典;建立跨语言的端到端土家语语音识别模型;利用连接时序分类模型并在编码字典的作用下解码得到识别结果。本发明借助大语种语料充足的优势,结合迁移学习的思想,构造泛化性更强的识别模型,能够提高土家语语音识别的准确率。
技术领域
本发明属于语音识别领域,涉及一种针对低资源土家语的跨语言端到端语音识别方法。
背景技术
随着互联网技术的发展和计算机运算能力和硬件的提升,语音识别技术又一次迎来了新的热潮,尤其近年来,深度学习又一次点燃了科学家们语音识别技术的热情。语音识别技术的应用范围很广,伴随着人工智能的发展,语音识别技术不仅仅包括语音拨号,语音导航,语音文档检索,简单的听写数据录入等功能,还包括了智能交通控制,室内设备控制,智慧城市等方面的应用。若是语音识别技术能得到很好的发展,相信可以给人类衣食住行等方面带来极大的便利和影响,可以推动人类未来智能化生活和工作的进步。
语音信号是一种非平稳时序信号,其形成和感知的过程就是一个复杂信号的处理过程,而语音识别可视为一个序列到序列的分类问题,即声学观测序列X=(x1,x2,…,xT)被映射到字符序列W=(w1,w2,…,wN)上,其中T为时间,N为字符个数,解决概率P(W|X)的问题。在时序分类任务中,常用的方法是输入数据与给定标签必须要在时间上达到帧级别的对齐,只有这样才能使用隐马尔科夫模型(Hidden Markov Model,HMM)按帧进行训练。然而,逐帧训练输出的是单帧概率,对于时序问题来说,输出序列的概率远比输出单帧的概率重要得多。因此,针对此问题,在基于深度学习的语音识别领域中,端到端的语音识别技术已成为国内外近期研究的热点之一。
目前国内外自动语音识别技术多数是依赖于大量的数据资源,而濒危语言是指使用人数越来越少的、行将灭绝的语言,可采集的语音数据量非常有限,属于低资源语音识别。土家语作为众多濒危语言中的一种,没有文字,以口语的形式存在,母语人的数量少,导致数据不易收集,因此对土家语的自动语音识别有很大挑战性。据统计,我国少数民族使用的语言在130种以上,近一半处于衰退状态,当前我国有几十种语言处于濒危状态,这种趋势仍在持续,甚至有所加剧,对濒危语言的识别与保护有助于维护文化的多样性。
对语音材料的文本处理目前已经成为土家语保护工作中的难点和瓶颈。第一,工作量极大,要耗费大量的人力和时间。按照普遍性的经验,一分钟的录音至少需要花费一个小时以上的时间进行文本处理。而没有经过文本处理的语音资料不具备任何可理解性,不具有保存价值;第二,土家语的使用人数少,能够进行语料文本处理的母语人或专业人才稀缺。这使得原本需要大量人力和时间才能完成的语音资料文本处理工作难度更大。因此本发明的目的可以帮助语言学家完成对土家语的记音等工作,能够很大程度上减少人力和时间成本,具有重要的理论意义和应用价值。
发明内容
为了克服上述现有技术的不足,本发明公开了一种针对低资源土家语的跨语言端到端语音识别方法,能够解决土家语在识别过程中的低资源问题,并实现更好的语音识别。
本发明提供的技术方案是:
一种针对低资源土家语的跨语言端到端语音识别方法,包括以下步骤:
1)土家语语料预处理:首先利用Praat脚本完成土家语长篇原始语料的句子切分,得到每句声音与其对应的国际音标文本,并完成声音与文本标签的校对,确保一一对应;得到预处理后的土家语数据;
具体地,土家语国际音标的音位系统由声母和韵母构成,21个声母中包括两个半元音声母,韵母由6个单元音、复元音11个和8个鼻化元音组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811011859.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:消息处理方法及装置
- 下一篇:语音产品的测试方法、装置、设备及计算机可读介质