[发明专利]基于深层时延神经网络的藏语卫藏方言口语识别方法有效

专利信息
申请号: 202110183564.3 申请日: 2021-02-08
公开(公告)号: CN112951206B 公开(公告)日: 2023-03-17
发明(设计)人: 魏建国;何铭;徐君海 申请(专利权)人: 天津大学
主分类号: G10L15/00 分类号: G10L15/00;G10L15/02;G10L15/06;G10L15/14;G10L15/16;G10L15/26;G10L25/24;G10L25/69
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 刘国威
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深层 神经网络 藏语 方言 口语 识别 方法
【说明书】:

发明涉及深度学习、信号处理、语音识别、特征提取、发音学等技术领域,为针对藏语卫藏方言的口语应用场景,提升藏语卫藏方言口语识别模型的整体效果,本发明,基于深层时延神经网络的藏语卫藏方言口语识别方法,采用三种藏语方言混合的音频数据集,通过速度扰动、添加噪音和混响的方法对原始音频数据集进行扩充,并利用扩充后的数据集基于开源的语音识别工具箱kaldi的链式chain模型训练一个深层的时延神经网络,作为藏语声学模型,利用音频数据中卫藏方言的部分对声学模型进行第二次训练,以获得针对卫藏方言的深层的时延神经网络声学模型。本发明主要应用于藏语卫藏方言口语识别场合。

技术领域

本发明涉及深度学习、信号处理、语音识别、特征提取、发音学等技术领域,并将数据增广技术与深度神经网络技术进行结合,针对藏语卫藏方言口语类的应用场景,有针对性地对主要的声学模型和语言模型部分进行训练和调整,从而达到搭建一个效果较好的藏语卫藏方言口语语音识别系统的目的。

背景技术

当今时代,人工智能已经成为了科技行业研究的前沿和热点,各项人工智能技术也逐渐开始落地,走进人们的生活,语音识别就是其中一个非常重要的技术领域。语音识别技术就是让计算机听到人的语言并转化成其对应的文字内容的技术。这一技术的发展无疑改变了人类与计算机的交互方式,方便了人们的日常生活。

如今语音识别技术在汉语普通话、英语等资源较多的语种上已经获得了较好的效果。然而,在如藏语、维吾尔语、地方方言等语言类型上,语音识别技术的发展还较为落后。其原因在于,藏语等小语种由于使用人数较为稀少,获取技术研究所用的语料资源比较困难,成本很高,而且建立语音识别系统过程中往往需要较为专业的语言和发音方面的知识,导致研究这些小语种上语音识别技术的人才不足。已有的关于藏语识别的研究中,由于声学数据和文本数据都较为稀少,所以一般直接利用藏语声学数据训练的声学模型和语言模型效果都比较差。有的技术方案里,利用其他语言的声学数据,如汉语、英语等训练一个基础模型,然后利用藏语声学数据对网络参数进行调整,可以使模型性能得到一些优化。但是由于源语言的发音特点与藏语语言的发音特点差异较大,所以这种技术方案得到的效果仍旧有待提高。

藏语语音识别技术的研究对于改变藏族地区居民生活条件、提升藏文化信息化建设,以及促进各民族之间文化的交流等都具有重要意义。本发明就是针对藏语目前资源较少、藏语识别技术发展较为落后的现状,而提出的一种基于深层时延神经网络的藏语卫藏方言口语识别模型的系统搭建技术方案。

发明内容

为克服现有技术的不足,本发明旨在提出一种新型的藏语语音识别系统模型搭建方案,主要针对的是藏语卫藏方言的口语应用场景,提升藏语卫藏方言口语识别模型的整体效果。为此,本发明采取的技术方案是,基于深层时延神经网络的藏语卫藏方言口语识别方法,采用三种藏语方言混合的音频数据集,通过速度扰动、添加噪音和混响的方法对原始音频数据集进行扩充,并利用扩充后的数据集基于开源的语音识别工具箱kaldi的链式chain模型训练一个深层的时延神经网络,作为藏语声学模型,利用音频数据中卫藏方言的部分对声学模型进行第二次训练,以获得针对卫藏方言的深层的时延神经网络声学模型;基于已有的有限的文本资源,分别使用口语类的藏文文本和新闻资讯类的藏语文本训练两个不同内容领域的N元语法N-gram语言模型,并按照1:1的比例进行插值,并且使用剪枝技术控制插值得到的模型的大小,得到藏文N-gram语言模型;将所述深层的时延神经网络声学模型、N-gram语言模型和发音词典结合构成解码器,之后再采用对口语类内容领域和新闻资讯类内容领域对应的两个语言模型按照8:2的比例重新插值,获得一个新的偏向于口语领域的语言模型,用来对解码出的中间结果进行重打分,使得整体语言模型更加偏重于口语类的文法习惯,将训练好的时延神经网络声学模型和N-gram语言模型、重打分语言模型组合成系统,得到最后针对藏语卫藏方言的口语领域语音识别模型。

具体步骤如下:

步骤一,准备藏语音频数据集,使用增广技术对其进行扩充;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110183564.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top