[发明专利]兼容多种语言的文档信息精准提取系统在审

专利信息
申请号: 202011004234.5 申请日: 2020-09-22
公开(公告)号: CN112132214A 公开(公告)日: 2020-12-25
发明(设计)人: 刘秀萍;王程 申请(专利权)人: 刘秀萍
主分类号: G06K9/62 分类号: G06K9/62;G06N20/10;G06F8/38;G06F8/20;G06F40/289;G06F40/295
代理公司: 暂无信息 代理人: 暂无信息
地址: 317000 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 兼容 多种 语言 文档 信息 精准 提取 系统
【权利要求书】:

1.兼容多种语言的文档信息精准提取系统,其特征在于,提出一种通用高效可行的兼容多种语言的文档信息精准提取架构,并基于该架构实现了兼容多种语言的文档信息精准提取系统,包括以下几个方面:

第一,提出基于支持向量机的文档信息提取算法,并以多语言文档分类的实际应用设计和分析算法参数,改良优化算法过程,改进提高算法的主动学习能力;

第二,通过对基于机器学习的信息提取流程解析改进,提出通用高效可行的兼容多种语言的信息精准提取架构,该架构主要分为两个层次,分别为前台展示层和后台逻辑处理层,该架构主要分为三个模块,分别为GUI模块、前置处理模块、主动学习模块,GUI模块为前台展示层,将信息提取过程以图形用户界面的方式展示给用户,提高用户的操作效率,提升系统交互性,前置处理模块和主动学习模块为后台逻辑处理层,采用模块化设计与个性化定制,增强系统的扩展能力与语言移植能力;

第三,基于通用高效可行的兼容多种语言的信息精准提取架构,采用python语言实现了兼容多种语言的文档信息精准提取系统,在精确度、召回率、F值、时间性能四个评估指标及语言移植能力上表现出非常好的效果;

兼容多种语言的文档信息精准提取系统:一是基于支持向量机的文档信息提取算法,包括支持向量机及其核函数、基于支持向量机的文档信息提取算法设计与实验;二是兼容多种语言的文档信息精准提取系统的设计,包括基于支持向量机的信息提取流程、文档信息提取图形用户界面、机器学习算法与特征选择、文档信息精准提取系统的架构,三是兼容多种语言的文档信息精准提取系统的实现,包括实现图形用户界面GUI、实现前置处理模块、实现主动学习模块、实现基于规则的提取模块。

2.根据权利要求1所述的兼容多种语言的文档信息精准提取系统,其特征在于,基于支持向量机的文档信息提取算法中最重要的是对参数向量e的求解,求出向量e能很容易的计算出分隔超平面的方程,本发明参数向量e的求解算法应用能提速的启发式方法:首先通过一个外层循环对第一个e的值进行选择,并且其选择过程在以下二种方式下交替进行,一种方式是在所有数据集上进行单遍扫描,另外一种方式是在非边界e上进行单遍扫描;另外,对非边界e值进行遍历时,第一步必须构造包含其中所有值的列表,然后才对该列表进行遍历,同时该遍历忽略掉已知且不会改变的e值;在选择第一个e值后,算法通过一个内层循环选择第二个e值,选择方式是通过最大化步长获取第二个e值的;本发明基于支持向量机的文档信息提取机器学习算法对参数e进行求解的具体步骤:

第1步,定义数据结构basicDataClass给所有数据赋予初始值,其中包括样本集矩阵X、样本集分类结果矩阵labelMat、容错率tolerRatio、样本集矩阵的行数n,参数向量alpha,参数g及n行2列的矩阵eCache,该矩阵第一列表征的是第二列的值是否有效;

第2步,初始化第1步定义的数据结构,其中向量alpha为零向量,g为0,初始化当前迭代次数curLooNum、迭代次数上限值maxLooNum、用于记录alpha是否已进行优化的变量alphaOptimized及用于标记选择过程是否是全集扫面方式fullScaner,其中curLooNum初始值为0,alphaOptimized的初始值为0,fullScaner为True;

第3步,若满足外层循环条件,此时的迭代次数curLooNum小于设定的上限次数maxLooNum,并且alphaOptimized大于零或fullScaner为True,则转向第4步;否则,跳出外循环,并返回向量alpha和参数g的结果值,算法结束;

第4步,将优化状态alphaOptimized设定为0,并判断全集扫描的状态fullScaner的值是否为True,如果为True,则转向第5步,否则转向第6步;

第5步,在所有数据集上进行单遍扫描,内层循环,对参数向量alpha进行优化,其中第二个alpha的选择采用启发式方法,即从中选择步长最大的一个;如果alpha对优化成功,则将优化状态变量alphaOptimized设定为1,之后将curLooNum加1,转向第7步;

第6步,首先找到非边界alpha值列表,再在非边界alpha上进行一次遍历,内层循环,对参数向量alpha进行优化,其中第二个alpha的选择采用启发式方法,即从中选择步长最大的一个,如果alpha对优化成功,则将优化状态变量alphaOptimized设定为1,之后将curLooNum加1,转向第7步;

第7步,如果全集扫描状态fullScaner为True,则将fullScaner设定为False,转向第3步;否则,判断优化状态变量alphaOptimized是否为0,如果为0,则将fullScaner设定为True,并转向第3步。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘秀萍,未经刘秀萍许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011004234.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top