[发明专利]一种基于深度学习的行业文本匹配模型方法及装置在审
申请号: | 202111369472.0 | 申请日: | 2021-11-15 |
公开(公告)号: | CN114282592A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 吴军;王得强;关立文 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 单冠飞 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 行业 文本 匹配 模型 方法 装置 | ||
1.一种基于深度学习的行业文本匹配模型方法,其特征在于,包括以下步骤:
获取预设个数的跨行业数据作为训练集,以得到待匹配语句;
将所述待匹配语句输入基于深度学习的行业文本匹配模型NERB,经过数据预处理后分别输入优化后的预训练模型NEZHA、RoBERTa和ERNIE-Gram;其中,所述优化后的预训练模型NEZHA,包括:对函数式相对位置编码、全词覆盖、混合精度训练和优化器的优化;
基于所述优化后的预训练模型,经过所述优化后的预训练模型匹配后输出三个文本匹配结果;
根据所述三个文本匹配结果进行综合判断,当存在任意两种文本匹配结果或三种文本匹配结果输出为相似时,所述行业文本匹配模型的输出结果判为相似,否则为不相似。
2.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对函数式相对位置编码优化,包括:所述预训练模型NEZHA通过采用函数式相对位置编码,输出与注意力得分的计算涉及到相对位置的正弦函数,则函数式相对位置编码公式,如下所示:
3.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对全词覆盖优化,包括:所述预训练模型NEZHA,采用全词覆盖策略,当一个汉字被覆盖时,属于同一个汉字的其他汉字都被一起覆盖。
4.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对混合精度训练优化,包括:所述预训练模型NEZHA采用混合精度训练,在每次训练迭代中,将主权值舍入半精度浮点格式,并使用所述半精度浮点格式存储的权值、激活和梯度执行向前和向后传递;将所述梯度转换为单精度浮点格式,并使用所述单精度浮点格式梯度更新主权重。
5.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述对优化器优化,包括:所述预训练模型NEZHA采用LAMB优化器,自适应策略为所述LAMB优化器中的每个参数调整learning rate。
6.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述优化后的预训练模型RoBERTa,包括:
多个模型参数量和训练数据;预先调整优化器超参数;所述预训练模型RoBERTa选取预设个数的训练样本数;去掉下一句预测任务,并且数据连续从一个文档中获得;使用动态掩码,通过复制一个训练样本得到多份数据,每份数据使用不同掩码,并加大复制的分数,每次向所述预训练模型RoBERTa输入一个序列时生成新的掩码模式;使用全词掩码。
7.根据权利要求6所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述优化后的预训练模型RoBERTa,还包括:
文本编码,所述预训练模型RoBERTa,在文本编码过程中使用预设级别的byte的BPE词汇表训练,且不用对输入作额外的预处理或分词。
8.根据权利要求1所述的基于深度学习的行业文本匹配模型方法,其特征在于,所述优化后的预训练模型ERNIE-Gram,包括:
所述ERNIE-Gram模型通过显式引入语言粒度知识,显式n-gram掩码语言模型,学习n-gram粒度语言信息,基于所述显式n-gram掩码语言模型,所述预训练模型ERNIE-Gram以多层次n-gram语言粒度掩码学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111369472.0/1.html,转载请声明来源钻瓜专利网。