[发明专利]轻量化语义智能服务适配训练演化方法及系统有效
申请号: | 202110334447.2 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113094482B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 张玉清;郭智宸;周长兵 | 申请(专利权)人: | 中国地质大学(北京) |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/30 |
代理公司: | 北京华清迪源知识产权代理有限公司 11577 | 代理人: | 杜立军 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 量化 语义 智能 服务 训练 演化 方法 系统 | ||
1.一种轻量化语义服务模型训练演化方法,其特征在于,所述方法包括:
将通用语料输入生成器Generator模型,以对所述Generator模型进行遮罩语言模型MLM任务训练;
将训练文本数据输入生成器Generator模块,所述Generator模块用于随机将每篇文本数据中的每个字替换为对应位置上的伪造字;
获取所述Generator模块生成的三元组数据,所述三元组数据包括原文本、伪造文本和被伪造的位置;其中被伪造的位置为被替换掉的字在原文本中的位置,使用one-hot编码表示,被替换的位置设置为1,未被替换的位置设置为0;
使用伪造文本对恢复器Restorer模块进行还原替换标记RTR任务训练;
将所述伪造文本作为输入、原文本和被伪造的位置作为预测标签,输入所述恢复器Restorer模块,以使得所述Restorer模块还原文本中被替换的字,并对伪造文本中的伪造字进行识别;
基于Dynamic self-adjustment动态自适配方法对所述Restorer模块的识别结果进行监控和调整。
2.如权利要求1所述的方法,其特征在于,所述恢复器Restorer模块采用多层编码层Encoder Layer堆叠,输出层使用多输出连接遮罩语言模型Masked Language Model和还原替换标记模型Replace Token Restorer Model,所述遮罩语言模型Masked LanguageModel用于还原被替换的文本,所述还原替换标记模型Replace Token Restorer Model用于判别被伪造的文本位置;模型底部的双输出层为所述RTR任务的输出层,所述双输出层包括Masked Language Model遮罩语言模型输出层和Replace Token Restorer Model替换还原语言模型输出层。
3.如权利要求1所述的方法,其特征在于,所述恢复器Restorer模块中每个编码层Encoder Layer将结果输出至对应的决策器decision模块中,所述decision模块会对当前输出的结果和预测目标真实值进行CrossEntropy函数计算,计算得到当前损失,并将输出结果和预测目标真实值进行KL散度计算,以评估当前结果和真实值之间的分布差距。
4.如权利要求1所述的方法,其特征在于,所述基于Dynamic self-adjustment动态自适配方法对所述Restorer模块的识别结果进行监控和调整,包括:
开启Dynamic self-adjustment,针对下游任务进行fine-tuning训练,并提供相应的轻量化语义服务;当训练轮次大于轮次N时且C层的score小于score的阈值D,则[0,C-1]层足够拟合当前训练任务,将模型的C层以及之后的层全部删除,将当前层直接输出至Project投影层,以实现动态自适配。
5.如权利要求4所述的方法,其特征在于,所述Restorer模块还用于维护自身测量表,当自身测量表中存储了每一个编码器Encoder Layer层的Score,初始值均为0,所述score的计算由每层的决策器Decision模块决定,公式如下:
其中Epochs为当前训练的轮数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(北京),未经中国地质大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110334447.2/1.html,转载请声明来源钻瓜专利网。