[发明专利]语言模型预训练方法、装置在审
申请号: | 202110683642.6 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113408619A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 陈桂兴;黄羿衡 | 申请(专利权)人: | 江苏苏云信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289;G06F40/295;G06N3/04 |
代理公司: | 江苏坤象律师事务所 32393 | 代理人: | 赵新民 |
地址: | 215012 江苏省苏州市苏州吴中经济开发区越溪街*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 模型 训练 方法 装置 | ||
本发明提供语言模型预训练方法,包括:获取基于第一特征初始化的第一词向量,所述第一特征包括图像特征;获取随机初始化的第二词向量;基于所述第一词向量与所述第二词向量训练语言模型。结合了包括图像和词语构成的多模态特征进行预训练,提升了语言与现实事物的关联性;降低了进行语言模型预训练所需的语料,有效利用了外部知识,有利于进一步提高语言模型在下游任务中的使用效果。本发明还提供的语言模型预训练装置能够实现本发明的语言模型预训练方法而具有相应优势。
技术领域
本发明属于人工智能技术领域,尤其涉及基于图像特征多模初始化的语言模型预训练方法及相应的语言模型预训练装置。
背景技术
自然语言处理(Nature Language processing, NLP)是人工智能技术领域中的一个重要方向。语言模型的预训练在自然语言处理中应用越来越广泛,在许多文本任务中,采用经过预训练的语言模型可显著降低所需的训练数据量,提升语言模型的精度。目前常用的预训练语言模型中,例如RNNLM、word2vec、glove、Elmo、GPT、Bert这些主要类型,这些模型均会涉及到词的表示,即训练过程中,需要先将词表示成向量,在训练语言模型的过程中一起训练这些词向量。以上3种语言模型训练过程中,一般都采用随机初始化的方法初始化词向量。RNNLM、word2vec、glove、Elmo、GPT、Bert这些语言模型,是学习词与词之间的一些关系,所以这样学到的句子或词的表示,并不是真正的理解了现实世界的含义,仅仅是一种词与词之间的共现规律。例如,“狼”、“狗”、“猫”三个词,如果按照现有的语言模型的训练方法,那么模型会认为“猫”和“狗”的相似度会很高,因为“猫”和“狗”的共现频率非常高。但是模型并非真正地理解了“猫”、“狗”、“狼”的含义,所以“猫长得很像狗”的概率会比“狼长得很像狗”的概率高,这在下游任务,例如事实性判断的一些任务中,产生最终错误结果的可能性较高;在其他的一些任务如文本分类任务中,也会导致更差的性能。例如,下游是事实性判断的任务,“土狗也喜欢吃骨头”,如果预训练的语言模型的语料中未出现“土狗”这个词,或者未出现过类似句子,那么在利用语言模型判断句子事实性真假时,语言模型就可能认为这一陈述是假陈述。人类是结合现实世界来学习语言,语言也是用来表达现实世界的,而现有的语言模型训练方法不能完全贴合现实世界的意义,准确率不够高,不能满足自然语言处理任务需要。因此目前十分需要研究语言模型预训练方法、装置,能够让预训练的语言模型能更好的结合世界真实事物,用于更准确的反映真实事物,以此进一步推动自然语言处理技术的深入发展及广泛应用。
发明内容
本发明是为解决上述现有技术的全部或部分问题,本发明一方面提供了语言模型预训练方法,适用于语言模型的预训练。本发明的另外一个方面提供了语言模型预训练装置,用于进行语言模型的预训练。
本发明一方面提供的语言模型预训练方法,包括:步骤S1.获取基于第一特征初始化的第一词向量,所述第一特征包括图像特征;步骤S2.获取随机初始化的第二词向量;步骤S3.基于所述第一词向量与所述第二词向量训练语言模型。仍以下游是事实性判断的任务“土狗也喜欢吃骨头”为例,通过本发明的方法预训练的语言模型,由于“土狗”与“狗”在图像上的相似度非常高,所以“土狗”和“狗”的词向量会非常相似,只要训练语料中出现“狗喜欢吃骨头”这种句子,那么“土狗也喜欢吃骨头”这句话被判断为真陈述句的可能性会非常大。
一般情况中,所述步骤S1之前还包括:准备文本训练数据,获取其中词语的词性;基于所述词性筛选出实体词,记为第一词,实体词之外的其他词语记为第二词;获取所述第一词的所述第一特征;所述步骤S2中随机初始化所述第二词的词向量得到所述第二词向量。所述实体词是指其表征对象为实体且代表该对象的图像较为统一的词汇(例如一提到某个实体词,人脑中就立刻想到相对固定的某些形象图像)。对于所述实体词的词向量不进行随机初始化,而是这些比较相似的图像进行图像特征抽取,基于抽取的图像特征初始化获取所述第一词向量。而其余非实体词的词向量则随机初始化获取第二词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏苏云信息科技有限公司,未经江苏苏云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110683642.6/2.html,转载请声明来源钻瓜专利网。