[发明专利]一种文件自动分类方法无效

申请号：	201010179678.2	申请日：	2010-05-24
公开（公告）号：	CN101923561A	公开（公告）日：	2010-12-22
发明（设计）人：	张晓丹;乔晓东;姚长青;朱礼军	申请（专利权）人：	中国科学技术信息研究所
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100038***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文件自动分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种文件自动分类方法，属于数据挖掘领域，适用于资源自动归类、网络内容监管、垃圾邮件过滤、数字图书馆等。

背景技术

文件自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函数或分类器，该函数或分类器能把待分文件映射到给定的相应类别中。其目标是找到分类速度更快、更准确的管理文本信息的方法。

目前，大量的研究集中于文本文件分类的研究，如张晓丹等人在文献《一种决策级文本自动分类融合方法》(国家专利，专利申请号：2009100878443)中公开了一种决策级文本自动分类融合方法，其分类模型如图1所示。该方法以信息融合为理论基础，以分类精度较高的SVM、KNN、贝叶斯等文件自动分类算法为研究对象，采用多层融合结构，串、并联混和的形式，建立了决策级的文件自动分类融合模型。这种方法的缺点是：由于其仅处理文件中的本文信息，而没有对待分类文件中的图像、视频、音频等信息进行处理，导致分类的准确率不理想。这主要是由于目前网络数据中包含大量的多媒体数据，如视频、图像、音频等，因此基于文本的分类技术已无法满足人们的需要。

从已公开的文献中，还未见到同时处理多种媒体的文件分类方法。

发明内容

本发明针对目前已有文本自动分类方法存在准确度不高的缺点，在已有的决策级文本自动分类融合方法的基础上，提出一种基于多种媒体(图像、音频、视频和文本信息)的文件自动分类方法，得到准确率更高的分类结果。

本发明是通过以下技术方案实现的。

一种文件自动分类方法，其具体操作步骤如下：

第1步：从待分类文件中抽取出文本信息、图像信息、视频信息、音频信息；

第2步：在第1步的基础上，对抽取出来的文本信息、图像信息、视频信息、音频信息分别进行预处理；对文本信息进行预处理包括分词、特征提取、权重计算等；对图像信息进行预处理包括图像变换、增强、边缘检测、恢复、分割等；对视频信息进行预处理包括特征提取、建视频库、对视频数据进行多维分析等；对音频信息进行预处理包括前端预处理、特征提取、识别等；

第3步：在第2步的基础上，对经过预处理后的文本信息进行分类；使用的分类方法包括但不限于：KNN、SVM、贝叶斯；

第4步：在第2步的基础上，对经过预处理后的图像信息进行分类；使用的分类方法包括但不限于：SVM、贝叶斯网络、BP神经网络；

第5步：在第2步的基础上，对经过预处理后的视频信息进行分类；使用的分类方法包括但不限于：KNN、SVM、Boosting算法；

第6步：在第2步的基础上，对经过预处理后的音频信息进行分类；使用的分类方法包括但不限于：SVM、GMM算法；

第7步：收集第3步到第6步的分类结果，并采用决策级融合算法对收集的分类结果进行推理计算，得到最终的分类结果；所述决策级融合算法包括但不限于：贝叶斯网络算法、D-S证据理论算法、投票算法。

有益效果

本发明方法采用对文件中的文本信息、图像信息、视频信息、音频信息分别进行分类，然后采用决策级融合算法对分类结果进行综合处理，可以得到更高准确率的文件分类结果。

附图说明

图1为已有技术的决策级文本自动分类融合模型示意图。

具体实施方式

根据上述技术方案，下面结合实施例对本发明进行详细说明。

本实施例采用本发明方法建立一个文件分类系统，该分类系统采用JAVA开发平台，Oracle数据库。采用6000篇为文本训练语料、5000篇为图像训练语料、3000篇为视频训练语料、3000篇为音频训练语料对该分类系统进行训练，训练好以后，使用4000篇测试语料进行测试，具体步骤如下：