[发明专利]一种文本分类方法、系统及相关组件在审
申请号: | 201910329946.5 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110059647A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 杨紫崴;赵明 | 申请(专利权)人: | 杭州智趣智能信息技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 310000 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本分类 文本区域图像 目标物体图像 原始训练样本 非文本区域 文本类别 负样本 正样本 申请 计算机可读存储介质 文本分类模型 文本分类系统 电子设备 分类模型 类别标注 图像设置 文本内容 相关组件 训练文本 准确率 标注 图像 中文 优化 图片 | ||
1.一种文本分类方法,其特征在于,包括:
获取原始训练样本集并将所述原始训练样本集中每一张图片划分为文本区域图像和非文本区域图像;
根据所述文本区域图像对应的文本类别对所述文本区域图像进行类别标注操作,并将标注后的文本区域图像设置为所述正样本;
将所述非文本区域图像设置为负样本;
利用所述正样本和所述负样本训练文本分类模型,并利用所述文本分类模型对目标物体图像执行文本分类操作得到所述目标物体图像中每一文本内容对应的文本类别。
2.根据权利要求1所述文本分类方法,其特征在于,利用所述正样本和所述负样本训练文本分类模型包括:
基于retinanet框架利用所述正样本和所述负样本训练所述文本分类模型。
3.根据权利要求1所述文本分类方法,其特征在于,当所述原始训练样本集为银行卡图片样本集时,所述文本区域图像包括银行卡号所在区域对应的图像和有效期所在区域对应的图像。
4.根据权利要求1所述文本分类方法,其特征在于,当所述原始训练样本集为身份证图片样本集时,所述文本区域图像包括姓名所在区域对应的图像、民族所在区域对应的图像、住址所在区域对应的图像、性别所在区域对应的图像,生日所在区域对应的图像、签发机关所在区域对应的图像、有效期限所在区域对应的图像和身份号码所在区域对应的图像。
5.根据权利要求1至4任一项所述文本分类方法,其特征在于,在利用所述正样本和所述负样本训练文本分类模型之前,还包括:
对所述正样本和所述负样本执行数据增广操作。
6.根据权利要求5所述文本分类方法,其特征在于,所述数据增广操作包括随机亮度调节操作、对比度调节操作、运动模糊增加操作和高斯噪声增加操作中的任一项或任几项的组合。
7.一种文本分类系统,其特征在于,包括:
样本划分模块,用于获取原始训练样本集并将所述原始训练样本集中每一张图片划分为文本区域图像和非文本区域图像;
正样本设置模块,用于根据所述文本区域图像对应的文本类别对所述文本区域图像进行类别标注操作,并将标注后的文本区域图像设置为所述正样本;
负样本设置模块,用于将文本区域图像设置为正样本,并将所述非文本区域图像设置为负样本;
分类模块,用于利用所述正样本和所述负样本训练文本分类模型,并利用所述文本分类模型对目标物体图像执行文本分类操作得到所述目标物体图像中每一文本内容对应的文本类别。
8.根据权利要求7所述文本分类方法,其特征在于,所述分类模块具体为用于基于retinanet框架利用所述正样本和所述负样本训练所述文本分类模型,并利用所述文本分类模型对目标物体图像执行文本分类操作的模块。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本分类方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述文本分类方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州智趣智能信息技术有限公司,未经杭州智趣智能信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910329946.5/1.html,转载请声明来源钻瓜专利网。