[发明专利]一种基于独立循环神经网络的语言模型建模方法有效
| 申请号: | 202010067852.8 | 申请日: | 2020-01-20 |
| 公开(公告)号: | CN111310892B | 公开(公告)日: | 2022-08-02 |
| 发明(设计)人: | 程春玲;朱涛;闵丽娟;王亚石;杨维荣 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G10L15/06;G10L15/16;G10L15/183;G10L15/26 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210009 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 独立 循环 神经网络 语言 模型 建模 方法 | ||
本发明公开了一种基于独立循环神经网络的语言模型建模方法,使用独立循环神经网络代替循环神经网络作为基本单元,由于独立循环神经网络的神经元只从输入和上一时刻的隐态本身接收信息,同一层之间的神经元没有相互作用,梯度的计算可以独立进行,同时针对独立循环神经网络进行dropout正则化,在时间序列上通过在层与层之间应用dropout以改善模型的过拟合现象;使用对数双线性模型降低输出层的计算量,加快训练速度。本发明结合了独立循环神经网络、正则化方法以及对数双线性模型的优越性,可以降低语言模型的困惑度并提升训练效率。
技术领域
本发明涉及一种使用独立循环神经网络构建语言模型的方法,属于人工智能领域。
背景技术
语言模型(Language Model,LM)作为自然语言处理(Nature LanguageProcessing,NLP)的重要组成部分,一直是人们研究的热点。它通常表示为字符串s的概率分布p(s),它反映的是一个句子出现的概率。目前在自然语言处理中有着广泛的应用,如:语音识别、机器翻译、手写识别、句法分析、词性标注等。
传统的方法主要基于统计模型,即统计语言模型——给定前面的词,求后面一个词出现的概率,通常使用单词组合出现的频率作为其概率。但是统计语言模型存在两个问题:自由参数数目过多;数据的稀疏性也叫零概率问题。为了解决这两个问题,出现了n-gram语言模型。数据稀疏的问题通过平滑化方法来解决,假设有一个词组在训练语料中没有出现过,那么它的频次就为0,但实际上不能认为它出现的概率就是0,这是因为我们无法保证训练语料的完备性。最简单的解决办法就是我们默认每一个词组都出现1次,无论词组出现的频次是多少,都往上加1,这就能够解决概率为0的问题,这种方法叫做加1平滑也叫拉普拉斯平滑。虽然n-gram语言模型具有实现简单、可靠等优点,但是也存在长距离依赖、泛化能力弱、维度灾难等缺陷。
随着深度学习方法的不断发展,使用神经网络构建语言模型的方法正逐渐取代传统的 n-gram语言模型方法。Bengio等[Y Bengio,R Ducharme,P Vincent et al.A neuralprobabilistic language model.Journal ofMachine Learning Research 3,no.Feb(2003):1137-1155.]首先提出使用前馈神经网络构建语言模型的方法并采用词的分布式表示解决了数据稀疏对统计建模的影响,克服了模型参数的维度灾难问题。同时,其训练的语言模型无需使用传统n-gram模型中复杂的平滑方法,具有较好的性能。但是前馈神经网络的sofimax层存在运算量大的问题而且本质上其输入层仍采用n-1个词作为历史信息且n值需要事先指定,并没有解决长期依赖的问题。基于Bengio等人的工作,Mikolov等[TMikolov,M Karafiát,L Burget,et al.Recurrent neural network based languagemodel.In Eleventh Annual Conference of the International Speech CommunicationAssociation.2010.]提出使用循环神经网络(Recurrent Neural Network,RNN)训练语言模型,通过隐藏层的循环获得更大的上下文信息同时降低了模型的参数个数。然而由于循环神经网络存在梯度消失/爆炸的问题,使得该方法对长距离信息的学习变得困难,虽然理论上RNN可以得到任意长度的上下文信息但实际的性能分析表明,RNNLM的性能相当于N为8或9时的n-gram语言模型。此外,NNLM中存在的输出层计算量太大的问题也没有得到很好的解决。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010067852.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种跨局域网络的通讯网关系统
- 下一篇:一种关于专色油墨的命名方式





