[发明专利]一种多任务模型生成词向量的方法有效
申请号: | 201811117839.8 | 申请日: | 2018-09-21 |
公开(公告)号: | CN109325231B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 黄定帮;潘嵘 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/268;G06F16/35;G06F18/2415;G06F18/2431;G06F18/27;G06N3/084;G06N3/088;G06N3/0985 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任务 模型 生成 向量 方法 | ||
本发明涉及计算机领域中的自然语言处理的技术领域,更具体地,涉及一种多任务模型生成词向量的方法。该方法通过集成无监督任务,分类任务,词性标注等多个任务模型的信息,增强其产生的词向量所蕴涵的信息。同时在多任务集成上使用高效且足够优秀的模型,以便能在大规模数据集上进行使用。该方法通过GloVe模型(基于全局信息的词向量,Global vectors for word representation)训练无监督任务,获取语言模型相关的信息。通过Fasttext模型训练分类任务,来获取文本中的类别信息。通过逻辑回归模型训练词性任务,获取词性相关信息。该方法能够在大规模数据集上快速得到蕴含丰富词义的优质词向量,从而应用于自然语言处理任务场景中。
技术领域
本发明涉及计算机领域中的自然语言处理的技术领域,更具体地,涉及一种多任务模型生成词向量的方法。
背景技术
词向量表达是为了能将文字编码转换为容易模型计算的数值编码的操作,最开始由简单one-hot向量表达,即向量的每一个维度表示一个单词:在任一维度“0”表示不是该单词,“1”表示为该单词,这样的表达每个词向量只有1个维度为“1”,其他均为“0”。one-hot向量虽然简单,但其存在高维、稀疏、词汇鸿沟(词义无关联)等诸多问题。随着深度学习技术的发展,当前使用最多的是单词的分布式表示(Distributed Representation)——将单词表示为低维的实数向量,同时期望向量的分布关系尽可能多地蕴含语义和语法的信息,如两个词向量距离相近意味语义相近。随着深度学习在自然语言处理领域的火热,单词的分布式表示也同样获得了广泛的关注,并且一份好的词向量往往能够辅助模型的提升。另一方面,我们还没有找到能够很好的取代原版word2vec的其他训练词向量的方法。由此能够获取一份优秀的词向量有着重大的意义。
现有技术中,
1.使用多任务模型学习单词表达在2008年Collobert和Weston已经提出CW模型,并用于词性标注,命名实体识别、语义角色标注等任务。实际上这篇论文的主要目的并在于生成一份好的词向量,而是利用语言模型预训练好的词向量应用到多任务模型去解决上述的一系列问题。Collobert和Weston也在2011年将其订正后的论文重新投到JMLR上。
2.当前词向量模型中,影响最大的是Mikolov在2013年提出的word2vec,其简化了神经网络语言模型,去除了NPLM中间的非线性隐藏层,提出两个简单的神经网络模型CBOW和SG,其实实验表明在60亿单词的Google news数据集上训练得到的单词表达效果也好,训练时间降低十分之一。
3.Facebook在2016年发布了一个快速训练词向量的方法——fasttext其通过将一个段文本所有的词向量求平均作为句向量,并直接用这个句向量通过MLP进行分类。其表明在多核CPU的情况下10分钟内处理超过10亿个词汇。
4.当前主流的词向量训练模型,还有Pennington在2014年提出的GloVe模型,其借鉴了通过统计矩阵学习的隐式语义分析方法,以及word2vec中根据上下文预测中心词的方法,提出直接基于全局统计的统计共现矩阵,计算损失函数的方法:统计共现矩阵的值作为词是否相关的主要依据,根据词相关,则词的词向量的相似度高。因无神经网络的训练结构,且统计完词频共现矩阵后训练速度与训练语料大小无关,只与词汇表大小有关,其训练速度最快。
现有技术的缺陷是:
1.CW模型中使用算法模型复杂度过高,因而难以在大规模数据集上运行,虽然其实验表明在同等数据集上其结果能够达最好,但是不如简化模型在大规模数据集上的结果,如word2vec。
2.word2vec简化了神经语言模型,去掉了中间的非线性隐藏层,使得其能在大规模数据集上运行,不过因其只在单任务上运行,其词向量中蕴含的信息是有限的,如文本描述的类别情感等信息。甚至因为缺乏监督指导,与我们人类学习词的时候存在不少差距,故而词向量的信息有局限性。类似的,GloVe也存在和word2vec相同的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811117839.8/2.html,转载请声明来源钻瓜专利网。