[发明专利]一种基于深度学习的行业文本匹配模型方法及装置在审

专利信息
申请号: 202111369472.0 申请日: 2021-11-15
公开(公告)号: CN114282592A 公开(公告)日: 2022-04-05
发明(设计)人: 吴军;王得强;关立文 申请(专利权)人: 清华大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 单冠飞
地址: 10008*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 行业 文本 匹配 模型 方法 装置
【权利要求书】:

1.一种基于深度学习的行业文本匹配模型方法,其特征在于,包括以下步骤:

获取预设个数的跨行业数据作为训练集,以得到待匹配语句;

将所述待匹配语句输入基于深度学习的行业文本匹配模型NERB,经过数据预处理后分别输入优化后的预训练模型NEZHA、RoBERTa和ERNIE-Gram;其中,所述优化后的预训练模型NEZHA,包括:对函数式相对位置编码、全词覆盖、混合精度训练和优化器的优化;

基于所述优化后的预训练模型,经过所述优化后的预训练模型匹配后输出三个文本匹配结果;

根据所述三个文本匹配结果进行综合判断,当存在任意两种文本匹配结果或三种文本匹配结果输出为相似时,所述行业文本匹配模型的输出结果判为相似,否则为不相似。

2.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对函数式相对位置编码优化,包括:所述预训练模型NEZHA通过采用函数式相对位置编码,输出与注意力得分的计算涉及到相对位置的正弦函数,则函数式相对位置编码公式,如下所示:

3.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对全词覆盖优化,包括:所述预训练模型NEZHA,采用全词覆盖策略,当一个汉字被覆盖时,属于同一个汉字的其他汉字都被一起覆盖。

4.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对混合精度训练优化,包括:所述预训练模型NEZHA采用混合精度训练,在每次训练迭代中,将主权值舍入半精度浮点格式,并使用所述半精度浮点格式存储的权值、激活和梯度执行向前和向后传递;将所述梯度转换为单精度浮点格式,并使用所述单精度浮点格式梯度更新主权重。

5.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对优化器优化,包括:所述预训练模型NEZHA采用LAMB优化器,自适应策略为所述LAMB优化器中的每个参数调整learning rate。

6.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述优化后的预训练模型RoBERTa,包括:

多个模型参数量和训练数据;预先调整优化器超参数;所述预训练模型RoBERTa选取预设个数的训练样本数;去掉下一句预测任务,并且数据连续从一个文档中获得;使用动态掩码,通过复制一个训练样本得到多份数据,每份数据使用不同掩码,并加大复制的分数,每次向所述预训练模型RoBERTa输入一个序列时生成新的掩码模式;使用全词掩码。

7.根据权利要求6所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述优化后的预训练模型RoBERTa,还包括:

文本编码,所述预训练模型RoBERTa,在文本编码过程中使用预设级别的byte的BPE词汇表训练,且不用对输入作额外的预处理或分词。

8.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述优化后的预训练模型ERNIE-Gram,包括:

所述ERNIE-Gram模型通过显式引入语言粒度知识,显式n-gram掩码语言模型,学习n-gram粒度语言信息,基于所述显式n-gram掩码语言模型,所述预训练模型ERNIE-Gram以多层次n-gram语言粒度掩码学习。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111369472.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top