[发明专利]语言模型的训练方法及装置有效
| 申请号: | 201910739984.8 | 申请日: | 2019-08-12 |
| 公开(公告)号: | CN110619120B | 公开(公告)日: | 2021-03-02 |
| 发明(设计)人: | 王帅;唐文忠;陈梦东;宋嘉钰 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 张秀程 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语言 模型 训练 方法 装置 | ||
本发明实施例提供一种语言模型的训练方法及装置,其中方法包括:获取语料;将语料中的每个字作为目标字,获取每个目标字的笔画序列和义元信息;根据每个目标字的笔画序列、义元信息以及标签训练所述语言模型;其中,所述标签用于表征所述目标字在语料中的后一个字。本发明实施例向语言模型中添加笔画序列和义元信息增加模型的可解释行,使得文本分类有了很大的提升效果,更重要的是,能够在语料库大小远低于现有语料库大小的情况下,提升语言模型的准确性。
技术领域
本发明涉及计算机技术领域,更具体地,涉及语言模型的训练方法及装置。
背景技术
语言模型(language model)一般用于对一段文本的概率进行估计,即,描述一个字符串属于自然语言的概率。语言模型可以使用者许多自然语言处理方面的应用,例如语言识别、文本分类、句法分析等等。
现有的语言模型最开始使用language model生成词向量,并利用它进行文本处理任务的是ELMo模型,它利用了多层双向LSTM去抓取语义信息,它认为不同层能够捕获不一样的文本语义信息,因此最终的词向量除了最后一层隐藏层的输出外还包含将各个层的参数加入进去。用这种方法得到的词向量信息去做各种文本处理任务去得了显著的提升。另一种用类似方式训练向量的模型是Bert,该模型分别有两种大小,一种是用了12层transformer blocks,另一种用了24层的transformer blocks去进行多任务训练,之后在文本训练任务过程中还进行了参数微调。这两个模型都运用了深层的网络构建和大量的预训练文本去帮助模型获取更丰富的语义知识,其中,ELMo用的是1B Word Benchmark(1Billion Word Language Model Benchmark)语料库(该语料库拥有近10亿字的培训数据);Bert用的是English Wikipedia(2500M words)和BooksCorpus(800M words)。
由上述内容可知,现有的语言模型训练通常需要海量语料,现有技术中语料的数量严重制约语言模型的性能。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的语言模型的训练方法及装置。
第一个方面,本发明实施例提供一种语言模型的训练方法,包括:
获取语料;
将语料中的每个字作为目标字,获取每个目标字的笔画序列和义元信息;
根据每个目标字的笔画序列、义元信息以及标签训练所述语言模型;
其中,所述标签用于表征所述目标字在语料中的后一个字。
第二个方面,本发明实施例提供一种语言模型的训练装置,包括:
语料获取模块,用于获取语料;
信息获取模块,用于将语料中的每个字作为目标字,获取每个目标字的笔画序列和义元信息;
训练模块,用于根据每个目标字的笔画序列、义元信息以及标签训练所述语言模型;其中,所述标签用于表征所述目标字在语料中的后一个字。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910739984.8/2.html,转载请声明来源钻瓜专利网。





