[发明专利]基于深度学习的文本分类方法、装置、服务器及存储介质在审

专利信息
申请号: 202011203373.0 申请日: 2020-11-02
公开(公告)号: CN112329836A 公开(公告)日: 2021-02-05
发明(设计)人: 朱永强;伍文成 申请(专利权)人: 成都网安科技发展有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06N20/00
代理公司: 成都极刻智慧知识产权代理事务所(普通合伙) 51310 代理人: 唐维虎
地址: 610000 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 文本 分类 方法 装置 服务器 存储 介质
【说明书】:

本申请实施例提供一种基于深度学习的文本分类方法、装置、服务器及存储介质,通过按照训练语料分句权重对训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集,从而可以按照语言习惯选择尽可能保留完整语句与原始语序,通过基于分句权重选取关键分句用于后续的文本分类判别训练,可以使得深度学习模型能够学习到正常的语义特征。在此基础上,通过获取训练样本集中不同预设长度分区的分区样本集,并将每个分区样本集分别输入深度学习模型中进行训练,得到不同预设长度分区的文本分类模型,从而采用多长度分区的多模型训练方式,能够对不同文本长度的待分类文本自适应选取深度学习模型进行分类,提高分类精度。

技术领域

本申请涉及深度学习技术领域,具体而言,涉及一种基于深度学习的文本分类方法、装置、服务器及存储介质。

背景技术

随着计算机技术的发展越来越成熟,互联网与用户的生活变得密不可分,网络载体也由一开始的传统计算机发展成现在的各式各样的终端,例如手机、服务器、平板等。在相关技术发展中,各种智能设备也将进入物联网时代,在万物互联的背景下,网络中的文本信息呈现爆炸式增长。大数据时代的到来,意味着数据即金钱,而非结构化的文本信息并没有任何实际作用。基于此,如何对这些文本信息进行分类,一直是当前亟待研究的技术问题。

发明内容

基于现有设计的不足,本申请提供一种基于深度学习的文本分类方法、装置、服务器及存储介质,根据训练语料集合对应的词权重表计算训练语料集合中每一训练语料的分句的分句权重,并按照分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集,从而可以按照语言习惯选择尽可能保留完整语句与原始语序,基于分句权重选取关键分句用于分类判别,可以使得深度学习模型能够学习到正常的语义特征,在此基础上获取训练样本集中不同预设长度分区的分区样本集,并将每个分区样本集分别输入深度学习模型中进行训练,得到不同预设长度分区的文本分类模型,从而采用多长度分区的多模型训练方式,能够对不同文本长度的待分类文本自适应选取深度学习模型进行分类。

根据本申请的第一方面,提供一种基于深度学习的文本分类方法,应用于服务器,所述方法包括:

对训练语料集合进行处理,构建所述训练语料集合对应的词权重表;

根据所述词权重表计算所述训练语料集合中每一训练语料的分句的分句权重,并按照所述分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集;

获取所述训练样本集中不同预设长度分区的分区样本集,并将每个分区样本集分别输入深度学习模型中进行训练,得到不同预设长度分区的文本分类模型;

基于所述文本分类模型对输入的待分类文本进行文本分类。

在第一方面的一种可能的实施方式中,所述对训练语料集合进行处理,构建所述训练语料集合对应的词权重表步骤,包括:

获取训练语料集合,所述训练语料集合中的每个训练语料包括训练文本以及所述训练文本的类别标签;

对每个所述训练文本进行分词,得到所述训练文本对应的分词结果,所述分词结果由多个分词组成;

采用贝叶斯算法计算每个分词的贝叶斯后验概率,其中,所述贝叶斯后验概率用于表示当一个目标分词出现时,该目标分词对应的训练文本为每个类别标签的概率;

对所述每个分词的贝叶斯后验概率进行统计,获得所述每个分词的类别标签概率分布,并将所述类别标签概率分布的方差作为所述每个分词的词权重,其中,所述类别标签概率分布的方差表示所述类别标签概率分布的离散程度,当离散程度越大时,所述类别标签概率分布对应的类别标签的区分能力越大;

对所述每个分词的词权重进行排序得到所述训练语料集合对应的词权重表。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都网安科技发展有限公司,未经成都网安科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011203373.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top