[发明专利]兼容多种语言的文档信息精准提取系统在审

申请号：	202011004234.5	申请日：	2020-09-22
公开（公告）号：	CN112132214A	公开（公告）日：	2020-12-25
发明（设计）人：	刘秀萍;王程	申请（专利权）人：	刘秀萍
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/10;G06F8/38;G06F8/20;G06F40/289;G06F40/295
代理公司：	暂无信息	代理人：	暂无信息
地址：	317000 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	兼容多种语言文档信息精准提取系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.兼容多种语言的文档信息精准提取系统，其特征在于，提出一种通用高效可行的兼容多种语言的文档信息精准提取架构，并基于该架构实现了兼容多种语言的文档信息精准提取系统，包括以下几个方面：

第一，提出基于支持向量机的文档信息提取算法，并以多语言文档分类的实际应用设计和分析算法参数，改良优化算法过程，改进提高算法的主动学习能力；

第二，通过对基于机器学习的信息提取流程解析改进，提出通用高效可行的兼容多种语言的信息精准提取架构，该架构主要分为两个层次，分别为前台展示层和后台逻辑处理层，该架构主要分为三个模块，分别为GUI模块、前置处理模块、主动学习模块，GUI模块为前台展示层，将信息提取过程以图形用户界面的方式展示给用户，提高用户的操作效率，提升系统交互性，前置处理模块和主动学习模块为后台逻辑处理层，采用模块化设计与个性化定制，增强系统的扩展能力与语言移植能力；

第三，基于通用高效可行的兼容多种语言的信息精准提取架构，采用python语言实现了兼容多种语言的文档信息精准提取系统，在精确度、召回率、F值、时间性能四个评估指标及语言移植能力上表现出非常好的效果；

兼容多种语言的文档信息精准提取系统：一是基于支持向量机的文档信息提取算法，包括支持向量机及其核函数、基于支持向量机的文档信息提取算法设计与实验；二是兼容多种语言的文档信息精准提取系统的设计，包括基于支持向量机的信息提取流程、文档信息提取图形用户界面、机器学习算法与特征选择、文档信息精准提取系统的架构，三是兼容多种语言的文档信息精准提取系统的实现，包括实现图形用户界面GUI、实现前置处理模块、实现主动学习模块、实现基于规则的提取模块。

2.根据权利要求1所述的兼容多种语言的文档信息精准提取系统，其特征在于，基于支持向量机的文档信息提取算法中最重要的是对参数向量e的求解，求出向量e能很容易的计算出分隔超平面的方程，本发明参数向量e的求解算法应用能提速的启发式方法：首先通过一个外层循环对第一个e的值进行选择，并且其选择过程在以下二种方式下交替进行，一种方式是在所有数据集上进行单遍扫描，另外一种方式是在非边界e上进行单遍扫描；另外，对非边界e值进行遍历时，第一步必须构造包含其中所有值的列表，然后才对该列表进行遍历，同时该遍历忽略掉已知且不会改变的e值；在选择第一个e值后，算法通过一个内层循环选择第二个e值，选择方式是通过最大化步长获取第二个e值的；本发明基于支持向量机的文档信息提取机器学习算法对参数e进行求解的具体步骤：

第1步，定义数据结构basicDataClass给所有数据赋予初始值，其中包括样本集矩阵X、样本集分类结果矩阵labelMat、容错率tolerRatio、样本集矩阵的行数n，参数向量alpha，参数g及n行2列的矩阵eCache，该矩阵第一列表征的是第二列的值是否有效；

第2步，初始化第1步定义的数据结构，其中向量alpha为零向量，g为0，初始化当前迭代次数curLooNum、迭代次数上限值maxLooNum、用于记录alpha是否已进行优化的变量alphaOptimized及用于标记选择过程是否是全集扫面方式fullScaner，其中curLooNum初始值为0，alphaOptimized的初始值为0，fullScaner为True；

第3步，若满足外层循环条件，此时的迭代次数curLooNum小于设定的上限次数maxLooNum，并且alphaOptimized大于零或fullScaner为True，则转向第4步；否则，跳出外循环，并返回向量alpha和参数g的结果值，算法结束；

第4步，将优化状态alphaOptimized设定为0，并判断全集扫描的状态fullScaner的值是否为True，如果为True，则转向第5步，否则转向第6步；

第5步，在所有数据集上进行单遍扫描，内层循环，对参数向量alpha进行优化，其中第二个alpha的选择采用启发式方法，即从中选择步长最大的一个；如果alpha对优化成功，则将优化状态变量alphaOptimized设定为1，之后将curLooNum加1，转向第7步；

第6步，首先找到非边界alpha值列表，再在非边界alpha上进行一次遍历，内层循环，对参数向量alpha进行优化，其中第二个alpha的选择采用启发式方法，即从中选择步长最大的一个，如果alpha对优化成功，则将优化状态变量alphaOptimized设定为1，之后将curLooNum加1，转向第7步；

第7步，如果全集扫描状态fullScaner为True，则将fullScaner设定为False，转向第3步；否则，判断优化状态变量alphaOptimized是否为0，如果为0，则将fullScaner设定为True，并转向第3步。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于刘秀萍，未经刘秀萍许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011004234.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]兼容多种语言的文档信息精准提取系统在审

专利文献下载