[发明专利]一种档案自动编研方法有效

申请号：	201410714594.2	申请日：	2014-11-28
公开（公告）号：	CN104361111B	公开（公告）日：	2017-10-27
发明（设计）人：	蒋静;王卓平;门霞;赵毅	申请（专利权）人：	青岛大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	青岛高晓专利事务所(普通合伙)37104	代理人：	张世功
地址：	266071 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种档案自动方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种档案自动编研方法，其特征在于在基于B/S架构的档案管理信息系统中由档案录入与管理模块和档案编研模块联合实现档案自动编研，其具体步骤为：

(1)先进行档案信息录入，按照系统显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、档案所属分类、档号、年度和专家情况各类基本信息；

(2)再由档案录入与管理模块利用本发明提出的自动层次分类算法自动对步骤(1)录入的档案信息进行自动分类和汇总，并分别存入相对应的档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库中；

(3)再由档案编研模块根据用户输入的编研条件和存入的信息对相应档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库进行检索、查询并汇总生成档案编研结果；

(4)将档案编研结果显示在屏幕上，或将档案编研结果以Word文档或Excel报表的形式导出后打印输出形成纸质文档保存，实现档案的自动编研；

所述的自动层次分类算法的实现流程如下：

(1)先在本地或在线录入档案信息，按照系统显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、所属分类、档号、年度和专家的各类基本信息；

(2)系统自动提取档案标题及档案文本中的关键词的文本数据特征参数集并保存在相应的数据库中；

(3)对提取的文本数据特征参数集超过阈值时进行降维，过多的特征往往会导致维数灾难，使分类的效率降低；

(4)根据提取的文本数据特征参数或关键词执行朴素贝叶斯分类算法的粗分类；

(5)在步骤(4)粗分类结果上再分别针对每一子类进行特征抽取；

(6)再针对各个子类的文本数据特征参数执行朴素贝叶斯分类算法自动完成细分类；

(7)输出分类结果并保存到相对应的数据库中；

所述朴素贝叶斯算法是指分类时考虑文本的所有特征对文本进行分类，分类时将预测样本根据预测结果划分到特定文档类别概率最高的类别库中，其具体分类模型如下：给定一个未知类别的档案文本X，设有m个类别，记为C1,C2,……,Cm，根据朴素贝叶斯分类定律，在条件X下具有最高后验概率的类别P(Ci|X)的计算公式如下：

P(Ci|X)=P(X|Ci)P(Ci)P(X)]]>