[发明专利]文本样本扩充方法、装置、电子设备和计算机可读介质在审
申请号: | 202211052279.9 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115422326A | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 高杰 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35 |
代理公司: | 北京唯智勤实知识产权代理事务所(普通合伙) 11557 | 代理人: | 史立状 |
地址: | 101116 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 样本 扩充 方法 装置 电子设备 计算机 可读 介质 | ||
本公开的实施例公开了文本样本扩充方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:将初始文本样本集中对应的文本标签为目标文本标签的初始文本样本确定为待扩充文本样本,得到待扩充文本样本集;对于待扩充文本样本集中的每个待扩充文本样本,执行以下扩充步骤:根据目标扩充词性信息,确定待扩充文本样本包括的遮挡词;根据待扩充文本样本包括的遮挡词,生成至少一个替换词;根据待扩充文本样本和至少一个替换词中的每个替换词,生成扩充文本样本,得到扩充文本样本集合;将初始文本样本集和所得到的扩充文本样本集合组合为文本样本集。该实施方式与大数据有关,在缓解过拟合问题或欠拟合问题的同时缓解了数据不平衡问题。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及文本样本扩充方法、装置、电子设备和计算机可读介质。
背景技术
当一个文本分类任务的文本数据集中来自不同类别的文本样本数目相差悬殊时,通常称该文本数据集为“类别不平衡”的。在此基础上使用该文本数据集训练模型,会导致模型倾向于输出文本样本数目占比更大的类别,产生数据不平衡问题。现有的,为了缓解数据不平衡问题,在训练模型时,通常采用的方式为:复制占比更小的文本数据或删除占比更大的文本数据,使得处理后的文本数据达到相对平衡的状态。
然而,当采用上述方式缓解数据不平衡问题时,经常会存在如下技术问题:
复制占比更小的文本数据会导致模型出现过拟合问题,删除占比更大的文本数据会导致模型出现欠拟合问题,无法在缓解过拟合问题或欠拟合问题的前提下缓解数据不平衡问题。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了文本样本扩充方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种文本样本扩充方法,该方法包括:将初始文本样本集中对应的文本标签为目标文本标签的初始文本样本确定为待扩充文本样本,得到待扩充文本样本集,其中,上述目标文本标签满足预设少数类条件;对于上述待扩充文本样本集中的每个待扩充文本样本,执行以下扩充步骤:根据目标扩充词性信息,确定上述待扩充文本样本包括的遮挡词;根据上述待扩充文本样本包括的遮挡词,生成至少一个替换词;根据上述待扩充文本样本和上述至少一个替换词中的每个替换词,生成扩充文本样本,得到扩充文本样本集合;将上述初始文本样本集和所得到的扩充文本样本集合组合为文本样本集。
可选地,上述根据上述待扩充文本样本包括的遮挡词,生成至少一个替换词,包括:根据上述待扩充文本样本包括的遮挡词,生成遮挡待扩充文本样本;将对应上述遮挡待扩充文本样本的各个词语的文本编码集合、文本位置标识集合和词语标签集合输入至预设同类词语生成模型,得到至少一个替换词。
可选地,上述根据上述待扩充文本样本和上述至少一个替换词中的每个替换词,生成扩充文本样本,得到扩充文本样本集合,包括:对上述待扩充文本样本包括的各个遮挡词对应的替换词进行排列组合,得到替换词组集,其中,上述待扩充文本样本包括的每个遮挡词对应的至少一个替换词的数量为预设替换词数量;对于上述替换词组集中的每个替换词组,将上述待扩充文本样本包括的各个遮挡词分别替换为上述替换词组中的各个替换词,得到替换文本样本。
可选地,上述至少一个替换词中的每个替换词对应有替换词标签;以及上述根据上述待扩充文本样本和上述至少一个替换词中的每个替换词,生成扩充文本样本,得到扩充文本样本集合,还包括:对于所得到的替换文本样本中的每个替换文本样本,根据上述替换文本样本中各个替换词对应的替换词标签,生成替换文本样本标签;根据所生成的替换文本样本标签,对所得到的替换文本样本进行排序,得到替换文本样本序列;从上述替换文本样本序列中选择预设数量的替换文本样本作为扩充文本样本,得到扩充文本样本集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211052279.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种田径运动员力量训练装置
- 下一篇:体感设备的数据传输方法