[发明专利]端到端的语言模型预训练方法、系统、设备及存储介质在审
| 申请号: | 202011587439.0 | 申请日: | 2020-12-28 |
| 公开(公告)号: | CN112699216A | 公开(公告)日: | 2021-04-23 |
| 发明(设计)人: | 谯轶轩;陈浩;高鹏 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06K9/62 |
| 代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 李宏德 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 端到端 语言 模型 训练 方法 系统 设备 存储 介质 | ||
本发明提供一种端到端的语言模型预训练方法、系统、设备及存储介质。所述方法包括:根据预设的知识相近判断规则,从现有知识库中检索得到与输入的知识片段的知识相近的现有知识片段;将输入的所述知识片段和检索到的所述现有知识片段进行拼接,得到拼接知识片段;将所述拼接知识片段进行掩码处理;将掩码后的拼接知识片段作为语言模型预训练的输入进行预测训练,完成端到端的语言模型预训练。本发明利用预设的相近判断规则,通过检索在现有知识库中进行相近的现有知识片段的检索,减小了训练时模型对参数的需求,从而使得语言模型能够基于检索增强利用外部知识,提高了语言模型训练的效率。
技术领域
本发明涉及语言模型的预训练方法,具体为一种端到端的语言模型预训练方法、系统、设备及存储介质。
背景技术
自然语言处理(NLP),目的是使得计算机具备人类的听、说、读、写、译、问、答、搜索、摘要、对话和聊天等能力,并可利用知识和常识进行推理和决策,并支持客服、诊断、法律、教学等场景。自然语言理解,被认为是AI皇冠上的明珠。一旦有突破,则会大幅度推动AI在很多重要场景落地。
预训练模型,则是使自然语言处理由原来的手工调参、依靠ML专家的阶段,进入到可以大规模、可复制的大工业施展的阶段。而且预训练模型从单语言、扩展到多语言、多模态任务。预训练通过自监督学习从大规模数据中获得与具体任务无关的预训练模型。
之所以需要做预训练模型,首先,预训练模型是一种迁移学习的应用,利用几乎无限的文本,学习输入句子的每一个成员的上下文相关的表示,它隐式地学习到了通用的语法语义知识。第二,它可以将从开放领域学到的知识迁移到下游任务,以改善低资源任务,对低资源语言处理也非常有利。第三,预训练模型在几乎所有NLP任务中都取得了目前最佳的成果。最后,这个预训练模型+微调机制具备很好的可扩展性,在支持一个新任务时,只需要利用该任务的标注数据进行微调即可,一般工程师就可以实现。
预训练有三个关键技术,第一个是用来对输入的一句话或者一个段落进行编码或者进行解码的转换器(Transformer),第二个是用于学习单词的上下文相关表示的自监督学习,第三个就是微调,旨在利用其标注样本对预训练网络的参数进行调整。
近年来,主流的预训练(Pre-training)语言模型(language modeling)方法通过在大规模数据集上进行预训练,将数据集中蕴含着的大量知识注入到模型本身的参数中,在下游领域的任务(例如问答任务)上进行微调(fine-tuning)达到了非常不错的性能。后续发展的诸多改进方法也从:1.在更大规模的数据集上进行训练;2.采用参数量更加庞大的模型,这两个角度对性能做了更进一步的提升。
然而,在实际场景中,收集大规模的高质量样本是极其昂贵的,甚至在某些领域,只能从逻辑上或者概念上相近的其他领域的样本中借鉴并吸取相通的知识,参数量巨大的模型在实际的部署及使用中也是极其耗费资源的,一方面加大的服务器的负载,另一方面,训练和微调它的成本也是非常巨大的。更进一步的,即使模型本身具备如此庞大的参数量,但是依然无法将样本中蕴含的所有知识全部存储在模型本身的参数中,一方面我们无法得知数据样本中本身究竟蕴含多少知识,另一方面,我们也无法操控对模型已经学习到的知识进行修改或者增加,而这一点对后期的可视化分析及可解释性带来了许多无法逾越的困难。
发明内容
针对现有技术中存在的语言模型的预训练对参数的需求量庞大,训练效率低,同时还增加了语言模型的部署成本问题,本发明提供一种端到端的语言模型预训练方法、系统、设备及存储介质。
本发明是通过以下技术方案来实现:
端到端的语言模型预训练方法,包括:
根据预设的知识相近判断规则,从现有知识库中检索得到与输入的知识片段的知识相近的现有知识片段;
将输入的所述知识片段和检索到的所述现有知识片段进行拼接,得到拼接知识片段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011587439.0/2.html,转载请声明来源钻瓜专利网。





