[发明专利]基于卷积神经网络的文本分类方法、装置、服务器及介质在审
| 申请号: | 201910007748.7 | 申请日: | 2019-01-04 |
| 公开(公告)号: | CN109857861A | 公开(公告)日: | 2019-06-07 |
| 发明(设计)人: | 于凤英;程宁;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 测试集 训练集 卷积神经网络 分类结果 分类器 文本分类 服务器 集合 分类准确度 获取数据 预设条件 数据集 分类 预测 | ||
本发明实施例提供了一种基于卷积神经网络的文本分类方法、装置、服务器及介质,该方法包括:获取数据集,将所述数据集划分为训练集和测试集;对训练集进行N次划分,得到N个子训练集集合;将N个子训练集集合中的子训练集,分别作为N个卷积神经网络模型的输入数据,对N个卷积神经网络模型进行训练,得到N个分类器;在进行分类预测时,将测试集输入到所述N个分类器中,得到每个分类器对所述测试集的分类结果;选取所述每个分类器对所述测试集的分类结果中满足预设条件的分类结果,作为所述测试集最终的分类结果。采用本发明,可以提高分本分类的泛化能力和分类准确度。
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于卷积神经网络的文本分类方法、装置、服务器及介质。
背景技术
在自然语言处理中,文本分类作为最普遍的一个应用,基于深度学习的文本分类方法也受到了越来越多的关注。例如,在使用卷积神经网络对文本分类时,往往需要先训练一个卷积神经网络模型,然后利用该训练后的卷积神经网络模型执行文本分类操作。然而,其对文本分类的泛化能力和准确度都比较低。
发明内容
本发明实施例提供了一种基于卷积神经网络的文本分类方法,装置、服务器及介质,可以提高对文本分类的泛化能力和准确度。
第一方面,本发明实施例提供了一种基于卷积神经网络的文本分类方法,包括:
获取数据集,将所述数据集划分为训练集和测试集;所述数据集包括多条文本;
对训练集进行N次划分,得到N个子训练集集合;每个子训练集集合包括从所述训练集提取出的至少一个子训练集;
将N个子训练集集合中的子训练集,分别作为N个卷积神经网络模型的输入数据,对N个卷积神经网络模型进行训练,得到N个分类器;
在进行分类预测时,将测试集输入到所述N个分类器中,得到每个分类器对所述测试集的分类结果;
选取所述每个分类器对所述测试集的分类结果中满足预设条件的分类结果,作为所述测试集最终的分类结果。
可选地,所述方法还包括:
将新的文本输入到所述N个分类器中,得到每个分类器对所述新的文本的分类结果;
选取所述每个分类器对所述新的文本的分类结果中满足预设条件的分类结果,作为所述新的文本最终的分类结果。
可选地,所述选取所述每个分类器对所述测试集的分类结果中满足预设条件的分类结果,包括:
采用投票法,从所述每个分类器对所述测试集的分类结果中,确定出所述测试集中每条文本对应获取票数最多的分类结果;
将所述测试集每条文本对应获取票数最多的分类结果,确定为满足预设条件的分类结果。
可选地,所述方法还包括:
当所述测试集中任一文本对应获取票数最多的分类结果为多个时,从多个分类结果中确定出目标分类结果;所述目标分类结果是通过随机采样得到的;
将所述目标分类结果确定为满足预设条件的分类结果。
可选地,所述对训练集进行N次划分,包括:
当对训练集进行N次划分时,在每次划分的过程中对训练集进行随机采样;所述随机采样为有放回采样。
可选地,所述方法还包括:
构建N个卷积神经网络模型;所述卷积神经网络模型至少包括:输入层,卷积层、池化层、全连接层。
可选地,所述方法还包括:
构建N个卷积神经网络模型;所述卷积神经网络模型至少包括:输入层,卷积层、池化层、全连接平均池化层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910007748.7/2.html,转载请声明来源钻瓜专利网。





