[发明专利]一种小规模语料DNN-HMM声学模型在审
申请号: | 201811176927.5 | 申请日: | 2018-10-10 |
公开(公告)号: | CN109065029A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 马志强;陈艳;李图雅 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L15/16 |
代理公司: | 佛山知正知识产权代理事务所(特殊普通合伙) 44483 | 代理人: | 尧娟 |
地址: | 010080 内蒙古自治*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种小规模语料DNN‑HMM声学模型,在DNN‑HMM声学模型的小规模语料语音识别主要先对输入的小规模语料语音进行特征提取,利用将提取后的特征对DNN‑HMM声学模型进行训练,并得到DNN‑HMM声学模型;再利用小规模语料语音对应的文本信息对语言模型训练,得到小规模语料语言模型;利用声学模型、语言模型以及字典构建得到解码器,从而得到整个小规模语料语音识别框架。 | ||
搜索关键词: | 语料 声学模型 语言模型 语音识别 语音 语言模型训练 解码器 特征提取 文本信息 再利用 构建 字典 | ||
【主权项】:
1.一种小规模语料DNN‑HMM声学模型,其特征在于:在DNN‑HMM声学模型的小规模语料语音识别主要先对输入的小规模语料语音进行特征提取,利用将提取后的特征对DNN‑HMM声学模型进行训练,并得到DNN‑HMM声学模型;再利用小规模语料语音对应的文本信息对语言模型训练,得到小规模语料语言模型;利用声学模型、语言模型以及字典构建得到解码器,从而得到整个小规模语料语音识别框架;整个小规模语料语音识别的步骤包括有训练和识别两个阶段:训练阶段包括有语音数据库与特征提取、DNN‑HMM声学模型、文本数据库、语言模型、字典、语音解码和搜索算法;识别阶段包括有语音输入、特征提取、语音解码和搜索算法和文本输出;在小规模语料库下的DNN‑HMM声学建模中,首先对小规模语料下DNN‑HMM声学模型参数进行迁移训练,并采用两种模型参数迁移方式:(1)同构模型参数迁移;(2)异构模型参数迁移;将同构模型和异构模型给出定义及其参数迁移方法,同时将DNN‑HMM模型训练方法与异构模型参数迁移方法进行结合,得出DNN‑HMM异构模型的参数迁移训练算法;(1)同构模型参数迁移:定义一:模型结构,将深度神经网络的模型结构为M,M=(N,P,F,l),其中N是网络节点N={N_1,N_2,…,N_i,…,N_l},N_i 指神经网络中第i层的节点数;P=(W,B),P={P_1^2,P_2^3,…,P_i^(i+1),…,P_(l‑1)^l},P_i^(i+1)指神经网络第i层到第i+1层的参数矩阵;W={W_1^2,W_2^3,…,W_i^(i+1),…,W_(l‑1)^l},W_i^(i+1)指神经网络第i层到第i+1层的权值矩阵;B指偏置向量B={B_1,B_2,…,B_i,…,B_(l‑1)},B_i指中神经网络第i层的偏置向量;F={g(·),o(·)},其中g(·)表示神经网络隐含层的激活函数,o(·)表示神经网络输出层的函数;l指网络深度;定义二:数据源,DS={XS,YS}和DT={XT,YT},S表示源数据,T表示目标数据,X表示输入训练数据,Y表示标签数据;定义三:同构模型,指源模型MS与目标模型MT的N、l和F相同,表示MS=MT;定义四:同构模型参数迁移,指在使用源数据DS构建的源模型Ms中WS和BS替换目标数据DT构建的目标模型MT中的WT和BT,得到迁移模型tr‑M;当MS=MT时,表明MS模型中WS和BS与MT模型中WT和BT属于同型矩阵,在进行模型参数迁移时可以直接将MS模型中参数矩阵迁移到MT模型参数对应的位置上;其同构模型参数迁移算法:输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr‑M,//tr‑M表示迁移后模型;1:initalize(MS);//初始化;2:MS←train(XS,YS,MS);3:MT←MS;4:tr‑M←train(XT,YT,MT);(2)异构模型参数迁移:定义五:异构模型,指源模型MS与目标模型MT的l相同,F相同,N1到Nl‑1相同,Nl不相同,表示MS<>MT;定义六:异构模型参数迁移。指在使用源数据DS构建的源模型Ms中部分WS和BS对目标数据DT构建的目标模型MT中的WT和BT进行替换,得到迁移模型tr‑M;异构模型下参数迁移:输入:XS,YS,XT,YT,//XS表示源数据,YS表示源数据的标注数据;XT表示目标数据,YT表示目标数据的标签数据,输出:tr‑M,//tr‑M表示迁移后模型;1:initalize(MS);2:MS←train(XS,YS,MS);3:MT←initalize(MT);4:
5:tr‑M←train(XT,YT,MT);在异构模型下,由于N1‑1不相同,不能直接将源领域数据训练得到的模型参数直接以对应关系迁移目标领域数据训练出来的模型中,增加参数迁移的难度;DNN‑HMM的声学模型训练过程步骤:步骤一:GMM‑HMM的模型训练,得到HMM的初始参数,同时得到对齐的训练语料;步骤二:根据(1)中对齐语料,按照编号和对齐语料构建DNN语料;步骤三:使用(2)的语料进行DNN预训练;步骤四:利用初始的HMM和预训练的DNN构建DNN‑HMM初始模型;步骤五:利用(2)的语料对DNN‑HMM进行再一次训练,直到模型的性能优于GMM‑HMM模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811176927.5/,转载请声明来源钻瓜专利网。