[发明专利]文件标签分类方法及装置有效
| 申请号: | 202010806917.6 | 申请日: | 2020-08-12 | 
| 公开(公告)号: | CN111930944B | 公开(公告)日: | 2023-08-22 | 
| 发明(设计)人: | 虞樱 | 申请(专利权)人: | 中国银行股份有限公司 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F18/214;G06F18/2431 | 
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 谷敬丽;薛平 | 
| 地址: | 100818 *** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 文件 标签 分类 方法 装置 | ||
本发明提供了一种文件标签分类方法及装置,该方法包括:提取标签体系树中每个节点的主题词,所述标签体系树包括多个文件的多级节点的主题词;将标签体系树中每个叶节点的向上多级节点的主题词加入至一个类别组中,形成每个类别组对应的主题词集合;获得每个类别组对应的特征词集合,将每个类别组对应的特征词集合中的特征词加入至该类别组对应的主题词集合中;根据每个类别组对应的主题词集合和多个文件,创建倒排序索引文件树,并基于倒排序索引文件树,构造训练集;采用所述训练集训练文本分类模型,获得训练好的文本分类模型;将待分类文件输入至训练好的文本分类模型,预测待分类文件的标签分类。本发明可以对文件标签进行快速、准确地分类。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文件标签分类方法及装置。
背景技术
对文件标签进行分类是目前文件管理的广泛需求,例如,商业银行内部审计过程中,需要以银行体系内部正式公布的各项规章制度文件作为审计的依据。大型银行人员众多,部门分工细致,业务品种繁多,致使规章制度文件的规模越来越庞大。审计员在规模庞大的制度库中快速、精准定位所需要的制度文件,成为提高审计效率的关键要素。
目前,文件标签分类方法包括:人工方法、浅层机器学习模型方法、深度机器学习模型方法等。
人工方法依靠手工方式为各类文件库多余10万的文件进行逐一分类标签,费时费力错误率高,需要人员具有专业技能。而且各类文件库中的文件更新频繁,标签体系也是与时俱进,经常翻新,依靠手工分类标签模式,已经不能满足业务发展的需要。
浅层机器学习模型方法是一种通过与预测标签相关的历史数据对新数据目标进行预测的算法,该方法需要大量训练数据;需要投入大量人工进行标注,并且依赖于非常专业的知识。另外,金融机构的制度文件通常是保密的,或局部保密,实际操作非常困难;这些浅层机器学习算法都具有数据稀疏性问题,并且需要人工定义和选择特征,这非常昂贵。
深度学习模型方法是一类基于线性模型的机器学习算法,模型简单,收敛速度快,无特征选择。适用于数据量大,特征较少的数据。深度机器学习模型解决了传统浅层机器学习方法中特征稀疏的问题,其是直接基于深度神经网络对文本进行端到端分类,最大的优点就是简洁,不需要设计特别复杂的过程,甚至不需要对某个问题有特别深入的理解,因为数据到手,直接输入就是了。但是这也有很大的缺点,那就是数据冗余,很多与问题无关的数据或信息严重影响最终结果,或者导致模型或许庞大,优化困难,资源浪费等等。
综上所述,目前缺乏一种快速、且准确的文件标签分类方法。
发明内容
本发明实施例提出一种文件标签分类方法,用以对文件标签进行快速、准确地分类,该方法包括:
提取标签体系树中每个节点的主题词,所述标签体系树包括多个文件的多级节点的主题词;
将标签体系树中每个叶节点的向上多级节点的主题词加入至一个类别组中,形成每个类别组对应的主题词集合;
获得每个类别组对应的特征词集合,将每个类别组对应的特征词集合中的特征词加入至该类别组对应的主题词集合中,所述每个类别组对应的特征词集合包括该类别组对应的叶节点下多个文件的特征词;
根据每个类别组对应的主题词集合和多个文件,创建倒排序索引文件树,并基于所述倒排序索引文件树,构造训练集;
采用所述训练集训练文本分类模型,获得训练好的文本分类模型;
将待分类文件输入至训练好的文本分类模型,预测待分类文件的标签分类。
本发明实施例提出一种文件标签分类装置,用以对文件标签进行快速、准确地分类,该装置包括:
主题词提取模块,用于提取标签体系树中每个节点的主题词,所述标签体系树包括多个文件的多级节点的主题词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010806917.6/2.html,转载请声明来源钻瓜专利网。





