[发明专利]文档分类模型的训练方法、文档分类方法、装置及设备在审
| 申请号: | 202010215642.9 | 申请日: | 2020-03-24 |
| 公开(公告)号: | CN111400499A | 公开(公告)日: | 2020-07-10 |
| 发明(设计)人: | 汪硕芃;毛晓曦;范长杰;张聪;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/58 |
| 代理公司: | 北京超成律师事务所 11646 | 代理人: | 吴迪 |
| 地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 分类 模型 训练 方法 装置 设备 | ||
本申请提供一种文档分类模型的训练方法、文档分类方法、装置及设备,涉及文档分类技术领域。其中,该训练方法包括:获取训练样本集,训练样本集包括多个样本文档;若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对训练样本集中的目标文档类别对应的样本文档进行重构,获取重构后的样本文档;采用重构后的样本文档增强训练样本集,获取满足预设分布条件的重构训练样本集,由于重构训练样本集中各文档类别下的样本文档分布更为均匀,进而根据重构训练样本集,训练获取文档分类模型时,文档分类模型可以学习到更多的目标文档类别对应的样本文档的特征,可以提高对分布较少的文档类别识别的准确率。
技术领域
本申请涉及文档分类技术领域,特别涉及一种文档分类模型的训练方法、文档分类方法、装置及设备。
背景技术
互联网高速发展带来的是日益丰富的网络文章数据,通过对这些网络文档的分类处理,可以更好的梳理全网范围内的文档类别分布情况。
现有的,对文档进行分类的做法是,通过对训练数据集进行训练,获取到相应的文档分类模型,而该文档分类模型可以分为编码模块和神经网络模块,则在进行文档分类时,通过文档分类模型中的编码模块对文档进行相关编码之后,将文档送入神经网络模块进行分类处理,从而得到文档的分类结果。
但现有的分类方法,对训练数据集的要求较高,若训练数据集分布不均衡,现有的分类方法对分布较少的类别识别准确率较低。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种文档分类模型的训练方法、文档分类方法、装置及设备,可以提高对分布较少的文档类别识别的准确率。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种文档分类模型的训练方法,包括:
获取训练样本集,所述训练样本集包括多个样本文档,各所述样本文档标注有所属文档类别;若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档;采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集;根据所述重构训练样本集,训练获取文档分类模型。
可选地,上述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档,包括:根据预设语句组合算法,对所述目标文档类别对应的样本文档中的语句进行重新组合,获取重构后的样本文档;和/或,采用预设回传翻译模型,对所述目标文档类别对应的样本文档中的语句进行回传翻译,获取重构后的样本文档。
可选地,上述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档,包括:
获取所述目标文档类别对应的样本文档的文档标题;
根据预设重构算法,对所述目标文档类别对应的样本文档中除所述文档标题之外的语句进行重构,获取重构后的样本文档。
可选地,上述采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集,包括:
将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足所述预设分布条件。
可选地,上述将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足所述预设分布条件,包括:将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量之间差距小于预设阈值。
可选地,上述根据所述重构训练样本集,训练获取文档分类模型,包括:根据所述重构训练样本集、预设语言模型及预设分类网络,训练获取文档分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010215642.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:推理任务的处理方法、设备和存储介质
- 下一篇:一种红外手势识别系统和方法





