[发明专利]文件标签分类方法及装置有效
| 申请号: | 202010806917.6 | 申请日: | 2020-08-12 |
| 公开(公告)号: | CN111930944B | 公开(公告)日: | 2023-08-22 |
| 发明(设计)人: | 虞樱 | 申请(专利权)人: | 中国银行股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F18/214;G06F18/2431 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 谷敬丽;薛平 |
| 地址: | 100818 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文件 标签 分类 方法 装置 | ||
1.一种文件标签分类方法,其特征在于,包括:
提取标签体系树中每个节点的主题词,所述标签体系树包括多个文件的多级节点的主题词;
将标签体系树中每个叶节点的向上多级节点的主题词加入至一个类别组中,形成每个类别组对应的主题词集合;
获得每个类别组对应的特征词集合,将每个类别组对应的特征词集合中的特征词加入至该类别组对应的主题词集合中,所述每个类别组对应的特征词集合包括该类别组对应的叶节点下多个文件的特征词;
根据每个类别组对应的主题词集合和多个文件,创建倒排序索引文件树,并基于所述倒排序索引文件树,构造训练集;
采用所述训练集训练文本分类模型,获得训练好的文本分类模型;
将待分类文件输入至训练好的文本分类模型,预测待分类文件的标签分类;
根据每个类别组对应的主题词集合和多个文件,创建倒排序索引文件树,包括:
合并所有类别组对应的主题词;
从多个文件中选取第二设定数量个文件;
根据主题词和该主题词在选取的每个文件中出现的频率,创建倒排序索引文件树。
2.如权利要求1所述的文件标签分类方法,其特征在于,获得每个类别组对应的特征词集合,包括:
对标签体系树中每个叶节点下的文件中内容进行分词处理,获得每个类别组对应的词集合,所述每个类别组对应的词集合包括该类别组对应的叶节点下多个文件的词集合;
从每个类别组对应的词集合中,选取第一设定数量个在文件中高频率出现的词作为每个类别组对应的特征词集合,删除每个类别组对应的特征词集合中均出现的特征词。
3.如权利要求2所述的文件标签分类方法,其特征在于,在对标签体系树中每个叶节点下的文件中内容进行分词处理,获得每个类别组对应的词集合之后,还包括:
删除每个类别组对应的词集合中的停留词、高频词和低频词。
4.如权利要求2所述的文件标签分类方法,其特征在于,从每个类别组对应的词集合中,选取第一设定数量个在文件中高频率出现的词作为每个类别组对应的特征词集合,包括:
从每个类别组对应的词集合中,采用TF-IDF算法选取第一设定数量个在文件中高频率出现的词,作为每个类别组对应的特征词集合。
5.如权利要求1所述的文件标签分类方法,其特征在于,基于所述倒排序索引文件树,构造训练集,包括:
基于每个主题词的权值,根据该主题词出现在每个文件的频率和位置计算倒排序索引文件树中每个文件的权值;
基于每个文件的权值,从第二设定数量个文件中选取第三设定数量个文件,构造训练集。
6.如权利要求1所述的文件标签分类方法,其特征在于,所述文本分类模型为TextCNN模型。
7.一种文件标签分类装置,其特征在于,包括:
主题词提取模块,用于提取标签体系树中每个节点的主题词,所述标签体系树包括多个文件的多级节点的主题词;
第一主题词生成模块,用于将标签体系树中每个叶节点的向上多级节点的主题词加入至一个类别组中,形成每个类别组对应的主题词集合;
第二主题词生成模块,用于获得每个类别组对应的特征词集合,将每个类别组对应的特征词集合中的特征词加入至该类别组对应的主题词集合中,所述每个类别组对应的特征词集合包括该类别组对应的叶节点下多个文件的特征词;
训练集构造模块,用于根据每个类别组对应的主题词集合和多个文件,创建倒排序索引文件树,并基于所述倒排序索引文件树,构造训练集;
模型训练模块,用于采用所述训练集训练文本分类模型,获得训练好的文本分类模型;
预测模块,用于将待分类文件输入至训练好的文本分类模型,预测待分类文件的标签分类;
根据每个类别组对应的主题词集合和多个文件,创建倒排序索引文件树,包括:
合并所有类别组对应的主题词;
从多个文件中选取第二设定数量个文件;
根据主题词和该主题词在选取的每个文件中出现的频率,创建倒排序索引文件树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010806917.6/1.html,转载请声明来源钻瓜专利网。





