[发明专利]意图识别训练样本数据的增强方法、系统、设备及介质在审
| 申请号: | 202210193984.4 | 申请日: | 2022-03-01 |
| 公开(公告)号: | CN114548313A | 公开(公告)日: | 2022-05-27 |
| 发明(设计)人: | 江小林;罗超;邹宇 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/335;G06F16/35;G06F40/216;G06F40/284;G06N3/08 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 罗朗;马涛 |
| 地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 意图 识别 训练 样本 数据 增强 方法 系统 设备 介质 | ||
1.一种意图识别训练样本数据的增强方法,其特征在于,所述增强方法包括:
获取历史意图识别训练样本数据,所述历史意图识别训练样本数据包括历史文本数据;
利用积分梯度获取所述历史意图识别训练样本数据中的关键词;
基于所述关键词采用MCMC采样算法生成目标句子,以所述目标句子作为新的文本数据;
将所述新的文本数据增加至所述历史意图识别训练样本数据中,以得到增强后的意图识别训练样本数据。
2.如权利要求1所述的意图识别训练样本数据的增强方法,其特征在于,所述获取历史意图识别训练样本数据的步骤之后,所述增强方法还包括:
基于所述历史意图识别训练样本数据训练得到意图分类模型;
所述利用积分梯度获取所述历史意图识别训练样本数据中的关键词的步骤包括:
基于所述意图分类模型利用所述积分梯度获取所述历史意图识别训练样本数据中的关键词。
3.如权利要求1所述的意图识别训练样本数据的增强方法,其特征在于,所述利用积分梯度获取所述历史意图识别训练样本数据中的关键词的步骤还包括:
利用所述积分梯度计算所述历史意图识别训练样本数据中每个字的权重值;
采用正向最大匹配算法对每个所述字的权重值求平均值,以得到对应词的权重值;
基于所述词的权重值筛选出所述关键词。
4.如权利要求1所述的意图识别训练样本数据的增强方法,其特征在于,所述基于所述关键词采用MCMC采样算法生成目标句子,以所述目标句子作为新的文本数据的步骤包括:
S1、基于所述关键词生成待处理句子;
S2、对所述待处理句子进行增加和/或删除和/或修改处理,以得到处理后的句子;
S3、利用GPT语言模型对所述处理后的句子进行打分,以得到多个候选句子;
S4、分别采用均匀分布以及MCMC采样算法计算得到句子采样概率值和句子接受率值;
S5、若所述句子采样概率值大于所述句子接受率值,则采集当前句子作为所述目标句子;若所述句子采样概率值小于等于所述句子接受率值,则重复上述步骤S2-S4,直到迭代至预设轮次后,获取所述预设轮次之后的句子作为所述目标句子。
5.一种意图识别训练样本数据的增强系统,其特征在于,所述增强系统包括:
第一获取模块,用于获取历史意图识别训练样本数据,所述历史意图识别训练样本数据包括历史文本数据;
第二获取模块,用于利用积分梯度获取所述历史意图识别训练样本数据中的关键词;
生成模块,用于基于所述关键词采用MCMC采样算法生成目标句子,以所述目标句子作为新的文本数据;
增加模块,用于将所述新的文本数据增加至所述历史意图识别训练样本数据中,以得到增强后的意图识别训练样本数据。
6.如权利要求5所述的意图识别训练样本数据的增强系统,其特征在于,所述增强系统还包括:
训练模块,用于基于所述历史意图识别训练样本数据训练得到意图分类模型;
第二获取模块,具体用于基于所述意图分类模型利用所述积分梯度获取所述历史意图识别训练样本数据中的关键词。
7.如权利要求5所述的意图识别训练样本数据的增强系统,其特征在于,所述第二获取模块包括:
第一计算单元,用于利用所述积分梯度计算所述历史意图识别训练样本数据中每个字的权重值;
第二计算单元,用于采用正向最大匹配算法对每个所述字的权重值求平均值,以得到对应词的权重值;
筛选单元,用于基于所述词的权重值筛选出所述关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210193984.4/1.html,转载请声明来源钻瓜专利网。





