[发明专利]意图识别训练样本数据的增强方法、系统、设备及介质在审
| 申请号: | 202210193984.4 | 申请日: | 2022-03-01 |
| 公开(公告)号: | CN114548313A | 公开(公告)日: | 2022-05-27 |
| 发明(设计)人: | 江小林;罗超;邹宇 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/335;G06F16/35;G06F40/216;G06F40/284;G06N3/08 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 罗朗;马涛 |
| 地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 意图 识别 训练 样本 数据 增强 方法 系统 设备 介质 | ||
本发明公开了一种意图识别训练样本数据的增强方法、系统、设备及介质,包括:获取历史意图识别训练样本数据;利用积分梯度获取历史意图识别训练样本数据中的关键词;基于关键词采用MCMC采样算法生成新的文本数据;将新的文本数据增加至历史意图识别训练样本数据,得到增强后的意图识别训练样本数据。本发明基于利用积分梯度获取的关键词采用MCMC采样算法生成新的文本数据;将新的文本数据增加至历史意图识别训练样本数据,得到增强后的意图识别训练样本数据。实现了基于无监督的方式结合积分梯度和MCMC采样算法进行意图识别训练样本数据的增强,降低了数据增强的成本,丰富了意图识别训练样本数据的多样性,提高了数据增强的效率。
技术领域
本发明涉及数据处理技术领域,特别涉及一种意图识别训练样本数据的增强方法、系统、设备及介质。
背景技术
目前主要的文本数据增强方法,包含增删改回译等基础EDA(最简单的数据扩充)等方式;通常基于语言模型的生成方式;或者基于有监督的Seq2Seq(一种循环神经网络的变种)方式;或者基于检索的方式等进行文本数据增强;而现有采用的文本数据增强方式成本比较高,生成的文本类别比较单一。
发明内容
本发明要解决的技术问题是为了克服现有技术中所采用的文本数据增强方式存在成本高、文本类别单一的缺陷,提供一种意图识别训练样本数据的增强方法、系统、设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明第一方面提供了一种意图识别训练样本数据的增强方法,所述增强方法包括:
获取历史意图识别训练样本数据,所述历史意图识别训练样本数据包括历史文本数据;
利用积分梯度获取所述历史意图识别训练样本数据中的关键词;
基于所述关键词采用MCMC(马尔科夫链蒙特卡罗)采样算法生成目标句子,以所述目标句子作为新的文本数据;
将所述新的文本数据增加至所述历史意图识别训练样本数据中,以得到增强后的意图识别训练样本数据。
较佳地,所述获取历史意图识别训练样本数据的步骤之后,所述增强方法还包括:
基于所述历史意图识别训练样本数据训练得到意图分类模型;
所述利用积分梯度获取所述历史意图识别训练样本数据中的关键词的步骤包括:
基于所述意图分类模型利用所述积分梯度获取所述历史意图识别训练样本数据中的关键词。
较佳地,所述利用积分梯度获取所述历史意图识别训练样本数据中的关键词的步骤还包括:
利用所述积分梯度计算所述历史意图识别训练样本数据中每个字的权重值;
采用正向最大匹配算法对每个所述字的权重值求平均值,以得到对应词的权重值;
基于所述词的权重值筛选出所述关键词。
较佳地,所述基于所述关键词采用MCMC采样算法生成目标句子,以所述目标句子作为新的文本数据的步骤包括:
S1、基于所述关键词生成待处理句子;
S2、对所述待处理句子进行增加和/或删除和/或修改处理,以得到处理后的句子;
S3、利用GPT语言模型对所述处理后的句子进行打分,以得到多个候选句子;
S4、分别采用均匀分布以及MCMC采样算法计算得到句子采样概率值和句子接受率值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210193984.4/2.html,转载请声明来源钻瓜专利网。





