[发明专利]对文档管理系统中的文档集合进行分类的方法以及系统有效
| 申请号: | 201110427970.6 | 申请日: | 2011-12-19 |
| 公开(公告)号: | CN102591920A | 公开(公告)日: | 2012-07-18 |
| 发明(设计)人: | 刘松涛 | 申请(专利权)人: | 刘松涛 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 冯谱 |
| 地址: | 100078 北京市丰*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 管理 系统 中的 集合 进行 分类 方法 以及 | ||
技术领域
本发明涉及电子文档处理领域,尤其涉及一种对文档管理系统中的文档集合进行分类的方法以及系统。
背景技术
随着计算机技术的发展,人们保留文件的方法开始由传统的纸质文件储存转变为更为方便快捷的电子文档存储。电子文档不仅可以存储资料的正文内容,还可以携带各种相关的文档属性。由于文档管理系统得到了广泛应用,用户不仅可以依靠其处理大量的文档信息,还可以快捷地根据需求从中进行检索以提取用户所需的特定文档。
上述文档检索过程指的是从文档管理系统中存储的大量文档中搜索用户期望获得的文档,现有的方法通常是对电子文档中包括的自然语言文本来执行关键词检索,或根据电子文档携带的文档属性来进行粗略分类后再进行检索。如果想提高检索的效率,对电子文档进行预分类和排序是非常必要的。
特定文档的文档管理系统,例如法律文件的文档管理系统,其存储了大量的电子法律文件,例如判决书等,如果仅仅依靠关键词或文档属性对其进行预分类,其时间复杂度较高,不仅需要投入大量的人力,还很难在有限时间内对大量的电子法律文件进行有效且精确的预分类。因此,从业者期望针对例如电子法律文件这一类其格式和内容具有特殊性的电子文档提供一种分类方法及系统,从而达到降低此类电子文档的分类复杂度的目的,以及可以对大量上述电子文档按照任意需求实现多维度的分类管理。
发明内容
本发明的目的在于提供一种对文档管理系统中的文档集合进行分类的方法以及系统,以实现高效地对文档进行分类管理。
为达到上述目的,一方面,本发明提供了一种对文档管理系统中的文档集合进行分类的方法,该方法包括:
分析所述文档集合,从该文档集合中的每一文档内抽取特征值,并根据该特征值生成特征标签,每一所述特征标签对应所述文档集合中的一个或多个文档;
选取所述文档集合的全集或非空子集;
构建条件模型,该条件模型包括多个类别,每一所述类别关联一个或多个所述特征标签以及包括该一个或多个特征标签在所述全集或非空子集内对应的全部或部分文档;
根据所述条件模型对所述全集或非空子集中包括的文档进行分类。
另一方面,本发明提供了一种对文档管理系统中的文档集合进行分类的系统,该系统包括:
标签模块,用于分析所述文档集合,从该文档集合中的每一文档内抽取特征值,并根据该特征值生成特征标签,每一所述特征标签对应所述文档集合中的一个或多个文档;
选取模块,用于选取所述文档集合的全集或非空子集;
条件构建模块,用于构建条件模型,该条件模型包括多个类别,每一所述类别关联一个或多个所述特征标签以及包括该一个或多个特征标签在所述全集或非空子集内对应的全部或部分文档。
本发明提供的对文档管理系统中的文档集合进行分类的方法以及系统,根据文档来生成特征标签,该特征标签和文档之间存在对应关系,再构建条件模型,所述条件模型的每一类别中包括一个或多个所述特征标签,根据所述对应关系可以确定该条件模型下包括的文档。所述条件模型即实现了在单一维度上对所述文档集合的简单分类,若组合多个所述条件模型的类别,则可以在多维度上实现对所述文档集合的复杂分类。上述方法和系统易于操作,自动化程度高,不仅降低了文档分类的时间复杂度,还实现了对大量文档按照任意需求进行多维度分类管理。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明的对文档管理系统中的文档集合进行分类的方法的一种具体实施方式的流程图;
图2是图1示出的方法中进行特征值抽取的逻辑示意图;
图3和图4是图1示出的方法中构建条件模型的具体实施示意图;
图5是根据本发明的本发明的对文档管理系统中的文档集合进行分类的系统的一种具体实施方式的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施例作详细描述。
首先请参考图1,图1是根据本发明的对文档管理系统中的文档集合进行分类的方法的一种具体实施方式的流程图,该方法包括:
步骤S100,分析所述文档集合,从该文档集合中的每一文档内抽取特征值,并根据该特征值生成特征标签,每一所述特征标签对应所述文档集合中的一个或多个文档;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘松涛,未经刘松涛许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110427970.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电镀系统及电镀方法
- 下一篇:一种含有巴戟天提取物的药用组合物





