[发明专利]兼容多种语言的文档信息精准提取系统在审
申请号: | 202011004234.5 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112132214A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 刘秀萍;王程 | 申请(专利权)人: | 刘秀萍 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/10;G06F8/38;G06F8/20;G06F40/289;G06F40/295 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 317000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 兼容 多种 语言 文档 信息 精准 提取 系统 | ||
1.兼容多种语言的文档信息精准提取系统,其特征在于,提出一种通用高效可行的兼容多种语言的文档信息精准提取架构,并基于该架构实现了兼容多种语言的文档信息精准提取系统,包括以下几个方面:
第一,提出基于支持向量机的文档信息提取算法,并以多语言文档分类的实际应用设计和分析算法参数,改良优化算法过程,改进提高算法的主动学习能力;
第二,通过对基于机器学习的信息提取流程解析改进,提出通用高效可行的兼容多种语言的信息精准提取架构,该架构主要分为两个层次,分别为前台展示层和后台逻辑处理层,该架构主要分为三个模块,分别为GUI模块、前置处理模块、主动学习模块,GUI模块为前台展示层,将信息提取过程以图形用户界面的方式展示给用户,提高用户的操作效率,提升系统交互性,前置处理模块和主动学习模块为后台逻辑处理层,采用模块化设计与个性化定制,增强系统的扩展能力与语言移植能力;
第三,基于通用高效可行的兼容多种语言的信息精准提取架构,采用python语言实现了兼容多种语言的文档信息精准提取系统,在精确度、召回率、F值、时间性能四个评估指标及语言移植能力上表现出非常好的效果;
兼容多种语言的文档信息精准提取系统:一是基于支持向量机的文档信息提取算法,包括支持向量机及其核函数、基于支持向量机的文档信息提取算法设计与实验;二是兼容多种语言的文档信息精准提取系统的设计,包括基于支持向量机的信息提取流程、文档信息提取图形用户界面、机器学习算法与特征选择、文档信息精准提取系统的架构,三是兼容多种语言的文档信息精准提取系统的实现,包括实现图形用户界面GUI、实现前置处理模块、实现主动学习模块、实现基于规则的提取模块。
2.根据权利要求1所述的兼容多种语言的文档信息精准提取系统,其特征在于,基于支持向量机的文档信息提取算法中最重要的是对参数向量e的求解,求出向量e能很容易的计算出分隔超平面的方程,本发明参数向量e的求解算法应用能提速的启发式方法:首先通过一个外层循环对第一个e的值进行选择,并且其选择过程在以下二种方式下交替进行,一种方式是在所有数据集上进行单遍扫描,另外一种方式是在非边界e上进行单遍扫描;另外,对非边界e值进行遍历时,第一步必须构造包含其中所有值的列表,然后才对该列表进行遍历,同时该遍历忽略掉已知且不会改变的e值;在选择第一个e值后,算法通过一个内层循环选择第二个e值,选择方式是通过最大化步长获取第二个e值的;本发明基于支持向量机的文档信息提取机器学习算法对参数e进行求解的具体步骤:
第1步,定义数据结构basicDataClass给所有数据赋予初始值,其中包括样本集矩阵X、样本集分类结果矩阵labelMat、容错率tolerRatio、样本集矩阵的行数n,参数向量alpha,参数g及n行2列的矩阵eCache,该矩阵第一列表征的是第二列的值是否有效;
第2步,初始化第1步定义的数据结构,其中向量alpha为零向量,g为0,初始化当前迭代次数curLooNum、迭代次数上限值maxLooNum、用于记录alpha是否已进行优化的变量alphaOptimized及用于标记选择过程是否是全集扫面方式fullScaner,其中curLooNum初始值为0,alphaOptimized的初始值为0,fullScaner为True;
第3步,若满足外层循环条件,此时的迭代次数curLooNum小于设定的上限次数maxLooNum,并且alphaOptimized大于零或fullScaner为True,则转向第4步;否则,跳出外循环,并返回向量alpha和参数g的结果值,算法结束;
第4步,将优化状态alphaOptimized设定为0,并判断全集扫描的状态fullScaner的值是否为True,如果为True,则转向第5步,否则转向第6步;
第5步,在所有数据集上进行单遍扫描,内层循环,对参数向量alpha进行优化,其中第二个alpha的选择采用启发式方法,即从中选择步长最大的一个;如果alpha对优化成功,则将优化状态变量alphaOptimized设定为1,之后将curLooNum加1,转向第7步;
第6步,首先找到非边界alpha值列表,再在非边界alpha上进行一次遍历,内层循环,对参数向量alpha进行优化,其中第二个alpha的选择采用启发式方法,即从中选择步长最大的一个,如果alpha对优化成功,则将优化状态变量alphaOptimized设定为1,之后将curLooNum加1,转向第7步;
第7步,如果全集扫描状态fullScaner为True,则将fullScaner设定为False,转向第3步;否则,判断优化状态变量alphaOptimized是否为0,如果为0,则将fullScaner设定为True,并转向第3步。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘秀萍,未经刘秀萍许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011004234.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示屏支架以及显示屏组件
- 下一篇:一种基于无人机的电力巡检装置