[发明专利]一种用于审计业务的文本自动分类方法在审
| 申请号: | 202110797260.6 | 申请日: | 2021-07-14 |
| 公开(公告)号: | CN113360658A | 公开(公告)日: | 2021-09-07 |
| 发明(设计)人: | 郑略省;卢伟龙;赵维伟;史泽斌 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/242;G06F40/284;G06F40/289;G06K9/62 |
| 代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 李晓芬 |
| 地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 审计 业务 文本 自动 分类 方法 | ||
1.一种用于审计业务的文本自动分类方法,其特征在于,包括以下步骤:
S1、获取针对目标分类的相关文档集合;
S2、将语料库分成训练集和测试集;
S3、将文档转换为计算机可处理的特征向量,并调整特征向量中各值的权重;
S4、基于完成特征化的文档向量,构建不同的分类模型;
S5、构建的最优分类模型在生产系统中部署,并调用分类模型的接口对新增的文档进行评估。
2.根据权利要求1所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S1中的操作步骤,所述相关文档集合是指属于相关类别的典型文档的集合。
3.根据权利要求1所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S2中的操作步骤,所述语料库包括分类和文档集。
4.根据权利要求1所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S2中的操作步骤,所述训练集和测试集的结构与语料库完全相同,文档数量按照80%和20%的比例分给训练集和测试集。
5.根据权利要求1所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S3中的操作步骤,包括以下步骤:
S301、特征选择:将“词”选择为文档的特征;
S302、特征表示:把经过特征选择后的文档内容用数学的“向量”进行表示;
S303、特征优化:采用期望交叉熵法调整特征向量中各值的权重。
6.根据权利要求5所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S301中的操作步骤,将文档表示为一系列词,并将停用词剔除。
7.根据权利要求6所述的一种用于审计业务的文本自动分类方法,其特征在于,所述停用词指常用的、无意义的虚词。
8.根据权利要求5所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S302中的操作步骤,将语料库中的所有文档分词组成一个“词典”,从“词典”的第一个词开始判断,如果文档中包含“词典”该位置对应的分词,则在向量的相关位置标记为1,否则标记为0。
9.根据权利要求1所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S4中的操作步骤,基于“训练集”构建分类模型,利用“测试集”对所构建出来的分类模型进行评估。
10.根据权利要求9所述的一种用于审计业务的文本自动分类方法,其特征在于,所述分类模型评估包括两个指标,分别是正确率和召回率,其中正确率是评价分类模型找到的属于某个分类的文档是否正确的指标,召回率是评价分类模型在发现属于该分类文档过程中是否存在“遗漏”的指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110797260.6/1.html,转载请声明来源钻瓜专利网。





