[发明专利]数据处理的方法、装置、终端设备以及存储介质有效
| 申请号: | 201910721273.8 | 申请日: | 2019-08-06 |
| 公开(公告)号: | CN110516233B | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 周阳 | 申请(专利权)人: | 深圳数联天下智能科技有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F40/295;G06F40/247 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
| 地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 终端设备 以及 存储 介质 | ||
1.一种数据处理的方法,其特征在于,所述方法包括:
获取实体词表,所述实体词表中包括多种实体类型的实体,每种实体类型的实体至少有一个;
基于所述实体词表中的实体,替换训练数据集内各训练数据中的实体,以得到所述各训练数据各自对应的第一训练数据,其中,用于替换第一实体的第二实体所属的实体类型与所述第一实体所属的实体类型相同,所述第二实体不同于所述第一实体,所述第一实体为所述训练数据集内的任一训练数据中的任一实体;
将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集;
其中,所述将所述各训练数据对应的第一训练数据添加至所述训练数据集以得到第一训练数据集之后,所述方法还包括:
获取停用词表,所述停用词表中包括多个停用词;
对所述第一训练数据集中的第一目标训练数据进行分词处理以得到组成所述第一目标训练数据的多个词,所述第一目标训练数据为所述第一训练数据集中的任一训练数据;
从组成所述第一目标训练数据的多个词中确定出不属于所述停用词表且不属于所述实体词表的词作为待预测词;
使用训练好的语言模型获取所述待预测词的同义词,基于所述同义词替换所述第一目标训练数据中的所述待预测词,以生成所述第一目标训练数据对应的第二训练数据;
将所述第一训练数据集中各训练数据各自对应的第二训练数据添加至所述第一训练数据集以得到第二训练数据集。
2.根据权利要求1所述方法,其特征在于,所述获取实体词表,包括:
提取所述训练数据集内各训练数据中的实体;
根据提取得到的实体生成所述实体词表。
3.根据权利要求1所述方法,其特征在于,所述基于所述实体词表中的实体,替换训练数据集内各训练数据中的实体,包括:
确定目标实体所属的目标实体类型,所述目标实体为所述训练数据集内任一训练数据中的实体;
从所述实体词表中随机选取属于所述目标实体类型的且不同于所述目标实体的实体,替换所述目标实体。
4.根据权利要求1-3任一项所述方法,其特征在于,所述获取所述待预测词的同义词,包括:
将所述第一目标训练数据中的待预测词替换为标识符以生成待预测数据;
将所述待预测数据输入预训练语言模型,基于所述预训练语言模型输出所述标识符对应的预测词;
将所述预测词确定为所述待预测词对应的同义词。
5.根据权利要求1-3任一项所述方法,其特征在于,所述将所述第一训练数据集中各训练数据各自对应的第二训练数据添加至所述第一训练数据集以得到第二训练数据集之后,所述方法还包括:
获取组成第二目标训练数据的多个词,所述第二目标训练数据为所述第二训练数据集中的任一训练数据;
从组成所述第二目标训练数据的多个词中确定出任意两个词,并交换所述任意两个词在所述第二目标训练数据中的位置,以生成所述第二目标训练数据对应的第三训练数据;
将所述第二训练数据集中各训练数据各自对应的第三训练数据添加至所述第二训练数据集以得到第三训练数据集。
6.根据权利要求5所述方法,其特征在于,所述将所述第二训练数据集中各训练数据各自对应的第三训练数据添加至所述第二训练数据集以得到第三训练数据集之后,所述方法还包括:
获取组成第三目标训练数据的多个词,所述第三目标训练数据为所述第三训练数据集中的任一训练数据;
从组成所述第三目标训练数据的多个词中随机选取任一词,并删除所述第三目标训练数据中的所述任一词,以生成所述第三目标训练数据对应的第四训练数据;
将所述第三训练数据集中各训练数据各自对应的第四训练数据添加至所述第三训练数据集以得到第四训练数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳数联天下智能科技有限公司,未经深圳数联天下智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910721273.8/1.html,转载请声明来源钻瓜专利网。





