[发明专利]一种档案自动编研方法有效
申请号: | 201410714594.2 | 申请日: | 2014-11-28 |
公开(公告)号: | CN104361111B | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 蒋静;王卓平;门霞;赵毅 | 申请(专利权)人: | 青岛大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 青岛高晓专利事务所(普通合伙)37104 | 代理人: | 张世功 |
地址: | 266071 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 档案 自动 方法 | ||
1.一种档案自动编研方法,其特征在于在基于B/S架构的档案管理信息系统中由档案录入与管理模块和档案编研模块联合实现档案自动编研,其具体步骤为:
(1)先进行档案信息录入,按照系统显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、档案所属分类、档号、年度和专家情况各类基本信息;
(2)再由档案录入与管理模块利用本发明提出的自动层次分类算法自动对步骤(1)录入的档案信息进行自动分类和汇总,并分别存入相对应的档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库中;
(3)再由档案编研模块根据用户输入的编研条件和存入的信息对相应档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库进行检索、查询并汇总生成档案编研结果;
(4)将档案编研结果显示在屏幕上,或将档案编研结果以Word文档或Excel报表的形式导出后打印输出形成纸质文档保存,实现档案的自动编研;
所述的自动层次分类算法的实现流程如下:
(1)先在本地或在线录入档案信息,按照系统显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、所属分类、档号、年度和专家的各类基本信息;
(2)系统自动提取档案标题及档案文本中的关键词的文本数据特征参数集并保存在相应的数据库中;
(3)对提取的文本数据特征参数集超过阈值时进行降维,过多的特征往往会导致维数灾难,使分类的效率降低;
(4)根据提取的文本数据特征参数或关键词执行朴素贝叶斯分类算法的粗分类;
(5)在步骤(4)粗分类结果上再分别针对每一子类进行特征抽取;
(6)再针对各个子类的文本数据特征参数执行朴素贝叶斯分类算法自动完成细分类;
(7)输出分类结果并保存到相对应的数据库中;
所述朴素贝叶斯算法是指分类时考虑文本的所有特征对文本进行分类,分类时将预测样本根据预测结果划分到特定文档类别概率最高的类别库中,其具体分类模型如下:给定一个未知类别的档案文本X,设有m个类别,记为C1,C2,……,Cm,根据朴素贝叶斯分类定律,在条件X下具有最高后验概率的类别P(Ci|X)的计算公式如下:
在P(Ci|X)计算公式中,P(X)是常数,因此只需要将分子P(X|Ci)P(Ci)最大化即可;P(Ci)是训练集中的类别分布概率,计算公式为:式中分子为类别|Ci|包含的文本数加1,分母为m个类别与|D|为训练集中所包含的文本总数之和;为了简化P(X|Ci)的计算过程,假定文本的多个属性是相互无关的,因此,计算P(X|Ci)就是推算特征属性在类别Ci上出现的概率,使用拉普拉斯估计的2种计算模型来推算P(X|Ci)的值:
(1)多变量模型,统计特征属性在文本中是否出现过,若出现记为1,否则记为0,计算公式为:
其中,|V|代表特征值总的数量,Bxt是wt在文本X中出现的标记,若wt出现则Bxt记为1,否则记为0,wt代表第t个特征,即向量的第t个分量,因此,式中的P(wt|Ci)计算公式如下:
(2)多项式模型(Multinomial Model)则统计特征属性在文本中的出现次数,计算公式为:
其中,Nxt代表了特征t在文本X中出现的次数;P(wt|Ci)的计算公式如下:
在P(wt|Ci)的计算公式中,Njt为特征t在文本dj中曾出现的次数,|D|为训练文本总数,|V|为特征总数,Njs是特征s在文本dj中的出现次数;该分类方法的实质是对文本对象中的所有特征值进行统计并映射到已存在的各个类别中的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛大学,未经青岛大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410714594.2/1.html,转载请声明来源钻瓜专利网。