[发明专利]中文文件自动分类法无效

申请号：	00136723.4	申请日：	2000-12-21
公开（公告）号：	CN1360253A	公开（公告）日：	2002-07-24
发明（设计）人：	杨立伟	申请（专利权）人：	意蓝科技股份有限公司
主分类号：	G06F7/00	分类号：	G06F7/00
代理公司：	北京纪凯知识产权代理有限公司	代理人：	程伟
地址：	中国***	国省代码：	台湾;71
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中文文件自动分类法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明是一种中文分类法，尤指一种中文文件自动分类法。

随著电脑的日渐普及，有越来越多的中文电子化文件。然而众多的文件是很不易管理的，需要将文件依其内容做分类，以方便管理。将众多的文件依其文件内容的不同，将各文件加以归类，或放置于不同的档案目录下，以达成文件分类的目的。

日前一般使用来做文件分类的方法，主要为「人工获取关键词法」。请参阅图1所示，其是为现有「人工获取关键词法」的流程图，该「人工获取关键词法」是先利用人类对于每篇待分类文件1’的文件内容进行了解后，然后以人工的方式选取数个足以代表该篇待分类文件1’内容的词汇、做为该篇待分类文件1’的关键词2’。然后在进行待分类文件1’分类之时，将具有相同关键词2’的文件归为同一类。

上述的「人工获取关键词法」是利用人工来选取待分类文件1’的关键词2’，然而利用人工处理文件分类时会有三大问题。第一个问题是「效率问题」，因为文件的关键词必须利用人类对于文件内容的理解后加以判断，始能决定那些文件的关键词为何。此一人类的「理解-判断」过程非常地耗时耗力，必需使用大量的人力，付出高昂的时间与成本，才能够处理越来越多的中文电子化文件。

利用人工处理文件分类时的第二个问题是「标准性问题」。因为文件的关键词选取过程必需依赖人类的理解与判断，这是一个牵涉人类主观意见的过程。同一群文件的分类结果可能会因人而异，因为每个人对于文件内容的主题与分类的看法都有不同，而导致每个人所选取的关键词不尽相同，所以会欠缺一致性的分类标准，这是以人工处理文件分类时的最大问题。例如将一群内容皆是政治新闻的中文文件以人工进行分类，某个人经过对这群文件内容的了解所做出的判断，可能将这群内容皆是政治新闻的中文文件的关键词选取为：「台湾」及「美国」；然而另外一个人可能会将这一群内容皆是政治新闻的中文文件的关键词选取为：「李登辉」以及「克林顿」。

利用人工处理文件分类时的第三个问题是「一致性问题」。即使是同一个人针对同一篇中文文件的文件内容进行理解与判断，也会因为个人记忆、经验的改变，以及外界环境的变迁，而有不同的理解与判断。例如将一篇内容属于政治新闻的中文文件交由同一人进行分类，可能第一次该篇中文文件的关键词会被选取为「环境保育」；同一篇内容属于政治新闻的中文文件交由同一人重做一次关键词的选取，然而该篇中文文件的关键词却可能会被选取为「核四电厂」。同一篇中文文件交由同一人进行关键词选取，但两次选取的给果却可能不相同，这就是「一致性问题」。

只要是通过人工处埋中文文件的分类，即使是聘请大量的专业人员来进行文件分类的工作，也都不可避免会有「效率问题」、「准确性问题」与「一致性问题」。因为人类要对于中文文件的文件内容有某一程度的了解后，才有可能将该份文件的文件内容摘要成数个具有代表性的关键词，这是一个需时甚久的步骤，因此具有「效率问题」。除此之外，对于同一篇中文文件的文件内容，可能不同的人会获取出数个不同的关键词，因为每个人所认为足以代表该篇中文文件的文件内容的词汇皆有不同，这也就是「准确性问题」。而同一篇中文文件的文件内容交由同一个人来获取关键词，也有可能会每次都有所不同，这就是「一致性问题」。

本发明的目的是提出一种中文文件自动分类法，本发明完全不需要人工参与，因此可以解决现有的「人工获取关键词法」以人工分类所带来的「效率问题」、「准确性问通」与「一致性问题」。

本发明的目的可以通过以下措施来达到：

一种中文文件自动分类法，其是包含：

(1)先将各篇待分类文件利用断词法进行断词处理；

(2)将断词处理所得的所有词汇置于词汇总表中；

(3)再将词汇总表中的每一个词汇进行特征鉴别步骤处理，以得词汇总表中的每个词汇在各篇待分类文件的特征值；

(4)将词汇总表中的所有词汇在单一篇待分类文件中的特征值，进行特征值组合处理，求得该篇待分类文件的特征向量；

(5)然后将各篇待分类文件的特征向量进行文件相似性判别步骤处理，而得各篇待分类文件与其它篇待分类文件的相似系数；

(6)最后将各篇待分类文件依其相似系数的大小进行分类，将相似系数大的数篇待分类文件结合成同一类别，完成文件分类。

该断词法为长词优先断词法，其是利用主辞典对应待分类文件中的所有文字，优先找出符合主辞典中最长的词汇。

其中该特征鉴别步骤是包括有：

(1)计算词汇总表中的每一个词汇在各篇待分类文件中出现的次数，该次数值为词汇频率；