[发明专利]文档分类模型的训练方法、文档分类方法、装置及设备在审
| 申请号: | 202010215642.9 | 申请日: | 2020-03-24 |
| 公开(公告)号: | CN111400499A | 公开(公告)日: | 2020-07-10 |
| 发明(设计)人: | 汪硕芃;毛晓曦;范长杰;张聪;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/58 |
| 代理公司: | 北京超成律师事务所 11646 | 代理人: | 吴迪 |
| 地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 分类 模型 训练 方法 装置 设备 | ||
1.一种文档分类模型的训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集包括多个样本文档,各所述样本文档标注有所属文档类别;
若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档;
采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集;
根据所述重构训练样本集,训练获取文档分类模型。
2.根据权利要求1所述的方法,其特征在于,所述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档,包括:
根据预设语句组合算法,对所述目标文档类别对应的样本文档中的语句进行重新组合,获取重构后的样本文档;和/或,采用预设回传翻译模型,对所述目标文档类别对应的样本文档中的语句进行回传翻译,获取重构后的样本文档。
3.根据权利要求1或2所述的方法,其特征在于,所述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档,包括:
获取所述目标文档类别对应的样本文档的文档标题;
根据预设重构算法,对所述目标文档类别对应的样本文档中除所述文档标题之外的语句进行重构,获取重构后的样本文档。
4.根据权利要求3所述的方法,其特征在于,所述采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集,包括:
将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足所述预设分布条件。
5.根据权利要求4所述的方法,其特征在于,所述将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足所述预设分布条件,包括:
将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量之间差距小于预设阈值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述重构训练样本集,训练获取文档分类模型,包括:
根据所述重构训练样本集、预设语言模型及预设分类网络,训练获取文档分类模型。
7.一种文档分类方法,其特征在于,包括:
获取待分类文档;
将所述待分类文档输入文档分类模型中,获取所述待分类文档的文档类别;其中,所述文档分类模型根据训练样本集训练获取,所述训练样本集中各文档类别对应的样本文档数量满足预设分布条件。
8.一种文档分类模型的训练装置,其特征在于,包括:第一获取模块、第二获取模块、第三获取模块及训练模块;
第一获取模块,用于获取训练样本集,所述训练样本集包括多个样本文档,各所述样本文档标注有所属文档类别;
第二获取模块,用于若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档;
第三获取模块,用于采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集;
训练模块,用于根据所述重构训练样本集,训练获取文档分类模型。
9.一种文档分类装置,其特征在于,包括:第一获取模块和第二获取模块;
所述第一获取模块,用于获取待分类文档;
所述第二获取模块,用于将所述待分类文档输入文档分类模型中,获取所述待分类文档的文档类别;其中,所述文档分类模型根据训练样本集训练获取,所述训练样本集中各文档类别对应的样本文档数量满足预设分布条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010215642.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:推理任务的处理方法、设备和存储介质
- 下一篇:一种红外手势识别系统和方法





