[发明专利]文本分类模型的训练样本生成方法、装置和电子设备在审
| 申请号: | 202010493959.9 | 申请日: | 2020-06-03 |
| 公开(公告)号: | CN111831821A | 公开(公告)日: | 2020-10-27 |
| 发明(设计)人: | 刘昊;肖欣延 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/31 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 模型 训练 样本 生成 方法 装置 电子设备 | ||
本申请公开了文本分类模型的训练样本生成方法、装置和电子设备,涉及自然语言处理和深度学习技术领域。实现方案为:获取目标内容类型的种子词,以及获取种子词作为搜索词搜索得到多篇目标文本,对多篇目标文本分别作为训练样本进行标注,以生成目标内容类型的训练样本集合,根据训练样本集合中的多个训练样本,生成关键词,根据关键词,更新种子词,以及将更新后的种子词作为搜索词,再次进行搜索,并将再次搜索到的目标文本作为训练样本进行标注并添加至训练样本集合。本申请中通过对已有训练样本提取关键词,利用关键词更新种子词,进而采用更新的种子词搜索得到更多的训练样本,实现了无需人工生成样本,降低了成本,提高了生成效率。
技术领域
本申请涉及计算机技术领域,具体地,涉及自然语言处理和深度学习技术领域。
背景技术
文本分类是在给定的分类体系中,将文本分到指定的某个或者某几个类别当中,文本分类作为自然语言处理技术(Natural Language Processing,NLP)中最基本的任务,在内容理解、信息检索和个性化推荐等方面都具备非常多的应用。
在进行文本分类时,通常采用基于深度学习方法的文本分类模型进行文本分类,而模型训练需要大规模的高质量训练数据。同时,不同分类场景下需要构建的训练样本数据也不同,因此,如何基于分类的需求,自动构建大规模的训练数据,是亟需解决的问题。
发明内容
提供了一种用于文本分类模型的训练样本生成方法、装置和电子设备。
根据第一方面,提供了一种文本分类模型的训练样本生成方法,本申请中通过对已有训练样本提取关键词,利用关键词更新种子词,进而采用更新的种子词搜索得到更多的训练样本,实现了对训练样本的扩展,无需人工手动操作,解决了现有技术中通过人工手动方式不断扩充训练样本集合,成本高,效率低的技术问题。
本申请的第二方面提出一种文本分类模型的训练样本生成装置。
本申请的第三方面提出一种电子设备。
本申请的第四方面提出一种存储有计算机指令的非瞬时计算机可读存储介质。
根据第一方面,提供了一种文本分类模型的训练样本生成方法,该方法包括:
获取目标内容类型的种子词,以及获取所述种子词作为搜索词,搜索得到多篇目标文本;
将所述多篇目标文本分别作为训练样本标注所述目标内容类型,以生成所述目标内容类型的训练样本集合;
根据所述训练样本集合中的多个所述训练样本,生成关键词;
根据所述关键词,更新所述种子词;以及
将更新后的所述种子词作为搜索词,再次进行搜索,并将再次搜索到的目标文本作为训练样本标注所述目标内容类型,并添加至所述训练样本集合。
根据第二方面,提供了一种训练样本生成装置,该装置包括:
获取模块,用于获取目标内容类型的种子词,以及获取所述种子词作为搜索词,搜索得到多篇目标文本;
标注模块,用于将所述多篇目标文本分别作为训练样本标注所述目标内容类型,以生成所述目标内容类型的训练样本集合;
提取模块,用于根据所述训练样本集合中的多个所述训练样本,生成关键词;
更新模块,用于根据所述关键词,更新所述种子词;以及
执行模块,用于将更新后的所述种子词作为搜索词,再次进行搜索,并将再次搜索到的目标文本作为训练样本标注所述目标内容类型,并添加至所述训练样本集合。
根据第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010493959.9/2.html,转载请声明来源钻瓜专利网。





