[发明专利]预训练语言模型获取方法、装置、电子设备和存储介质有效
申请号: | 201911342666.4 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111144115B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 庞超;王硕寰;孙宇;李芝 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F16/36 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 语言 模型 获取 方法 装置 电子设备 存储 介质 | ||
本申请公开了预训练语言模型获取方法、装置、电子设备和存储介质,涉及自然语言处理技术领域。具体实现方案为:获取第一训练语句,并确定第一训练语句的实际实体链接关系,以及将第一训练语句输入到预训练语言模型中,通过预训练语言模型中的transformer结构,得到第一训练语句中每个字符的向量表示,根据每个字符的向量表示,预测得到第一训练语句中实体的预测实体链接关系,并根据实际实体链接关系和预测实体链接关系之间的差异,调整预训练语言模型的模型参数,由此,结合训练预料中的实体确定出实体链接关系,使得训练好的预训练语言模型更好的获取实体知识信息,避免引入知识图谱导致预训练语言模型出现知识偏移现象的发生。
技术领域
本申请涉及计算机技术领域,具体涉及自然语言处理技术领域,尤其涉及预训练语言模型获取方法、装置、电子设备和存储介质。
背景技术
相关技术中,在得到预训练语言模型的过程中,为了使得预训练语言模型可以具有常识性知识和领域知识,通常直接结合知识图谱中的实体知识对预训练语言模型进行训练,然而,知识图谱的更新往往较慢,其中包含了过时的实体知识,这些过时的实体知识引入预训练语言模型中是十分有害的,容易出现知识偏移的现象发生。因此,如何简单有效地将实体知识引入预训练语言模型中是目前亟需解决的技术问题。
发明内容
本申请提出一种预训练语言模型获取方法、装置、电子设备和存储介质,直接结合训练预料中的实体确定出实体链接关系,并结合实体链接关系对预训练语言模型进行训练,可以使得训练好的预训练语言模型更好的获取实体知识信息,避免了直接引入知识图谱从而导致预训练语言模型可能出现知识偏移现象的发生。
本申请第一方面实施例提出了一种预训练语言模型获取方法,包括:获取预训练语言模型和实体关系训练任务,所述预训练语言模型包括transformer结构;根据所述实体关系训练任务,对所述预训练语言模型进行训练,以得到训练后的预训练语言模型;其中,所述实体关系训练任务,包括:获取第一训练语句;通过实体识别技术,确定出所述第一训练语句中的实体,并建立实体与实体之间的实际实体链接关系;将所述第一训练语句输入到所述预训练语言模型中,通过所述transformer结构,得到所述第一训练语句中每个字符的向量表示;根据所述第一训练语句中每个字符的向量表示,预测得到所述第一训练语句中实体的预测实体链接关系;根据所述实际实体链接关系和所述预测实体链接关系之间的差异,调整所述预训练语言模型的模型参数。
在本申请的一个实施例中,所述根据所述第一训练语句中每个字符的向量表示,预测得到所述第一训练语句中实体的预测实体链接关系,包括:将所述第一训练语句中每个字符的向量表示输入到预设的图神经网络模型中,以预测得到所述第一训练语句中实体的预测实体链接关系,其中,所述图神经网络模型包括多个实体节点,具有实体关系的两个实体节点之间具有关联边。
在本申请的一个实施例中,所述方法还包括:采用双语言训练任务,对所述预训练语言模型进行训练;其中,所述第一训练语句中的预设字符被遮盖或替换,所述双语言训练任务,包括:根据所述第一训练语句中每个字符的向量表示,预测得到被遮盖或者替换的预测字符;根据所述预设字符和所述预测字符之间的差异,调整所述预训练语言模型的模型参数。
在本申请的一个实施例中,所述方法还包括:采用句对关系训练任务,对所述预训练语言模型进行训练。其中,所述第一训练语句包括多个,多个所述第一训练语句的实际句对关系包括正例关系和反例关系,所述正例关系,用于指示多个所述第一训练语句为来自同一个文档的连续连语句,所述反例关系,用于指示多个所述第一训练语句为来自不同文档的语句;所述句对关系训练任务,包括:根据各个所述第一训练语句中每个字符的向量表示,分别确定出各个所述第一训练语句的语句向量表示;根据各个所述第一训练语句的语句向量表示,预测多个所述第一训练语句的预测句对关系;根据所述实际句对关系和所述预测句对关系,调整所述预训练语言模型的模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911342666.4/2.html,转载请声明来源钻瓜专利网。