[发明专利]一种纸质材料关键信息自动提取方法在审

专利信息
申请号: 201910595554.3 申请日: 2019-07-03
公开(公告)号: CN110502969A 公开(公告)日: 2019-11-26
发明(设计)人: 李昊;黄丹钰;赖韵宇;程方洲;王元楚;陈世金;马迪;曾灵聪 申请(专利权)人: 国网江西省电力有限公司检修分公司;国家电网有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/44;G06K9/46;G06K9/52;G06Q50/26;G06N3/08
代理公司: 36100 江西省专利事务所 代理人: 张文<国际申请>=<国际公布>=<进入国
地址: 330096 江西省南昌*** 国省代码: 江西;36
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 纸质材料 关键信息 卷积神经网络 优化算法 关键信息提取 归一化处理 图片 调整参数 工作领域 可扩展性 模型数据 扫描设备 图片文字 自动提取 自动优化 测试集 复杂度 训练集 智能化 算法 去除 噪声 维修 转化
【权利要求书】:

1.一种纸质材料关键信息自动提取方法,其特征在于:特征是:具体步骤如下:

A、将车辆工作中的派车单、维修单、油费单这些纸质材料通过拍照设备或者扫描设备转化为图片;

B、将获得的图片归一化处理,去除噪声,减少图片之间的复杂度;然后,设计卷积神经网络优化算法,对纸质材料图片中的文字进行识别;

C、设计卷积神经网络优化算法,对纸质材料图片中的文字进行识别,并设计TF-IDF优化算法提取出图片文字中的关键信息。对于派车单:提取出派车单图片中的派车日期,派车目的地以及派车人签名信息;对于维修单:提取出维修单图片中的维修日期,维修金额以及车辆维修部件信息;对于油耗单:提取出油耗单图片中的加油量,加油时间,加油费用以及加油站名称;最后将上面提取出来的关键数据自动存入用车系统。

2.根据权利要求1所述的纸质材料关键信息自动提取方法,其特征在于:

1)、文字识别样本数据集:

文字识别样本为一系列图片,因此需要将用车派遣单、油耗单、维修单等大量纸质材料中的文字图片人工收集起来,采用纸质材料文字图片作为文字图片数据集;

2)、图片预处理:

2.1、图片灰度化:

对于RGB彩色图像,图像中的每一个像素是由R(红),G(绿),B(蓝)三原色分三个通道存储不同的数值,一个像素点的颜色便由这三个不同数值的三原色叠加产生;灰度图是一种R,G,B三通道值均相同的特殊彩色图像,这种图像与彩色图像一样描述了图片整体和局部的色度和亮度,已知一张彩色图像的数值信息,则它的灰度图可以通过以下公式得出:

Gray=B;Gray=G;Gray=R (2-1)

Gray=0.72169B+0.71516G+0.212674R (2-2)

公式(2-2)中的权值是从人体生理学的角度提出的,因为人眼对绿色最为敏感、对蓝色最为迟钝;

对于HSV(Hue,Saturation,Value)彩色图像,一个HSV颜色结构的像素点(h,s,v)可以与RGB颜色模型有如下转化方式:

p=v×(1-s) (2-5)

q=v×(1-f×s) (2-6)

t=v×(1-(1-f)×s) (2-7)

对于每一个像素点的颜色向量(r,g,b):

其中h∈[0,360],是色向角,而s,v∈[0,1]表示颜色的透明饱和度;

2.2、图像细化:

利用Zhang快速并行细化算法,设有一个像素点p1,则它在一副M×N维的图片中的领域为:

表1.2.1像素p1的八个领域像素点

P9P2P3
P8P1P4
P7P6P5

其中:P1表示图片中的一个白点,在二值图像中也就是1,当该点领域满足以下条件时,表明该点属于形状的边缘,可以被剔除,也就是被置为0;

第一步细化的条件为:

(1)、2≤N(P1)≤6N(x)表示点x邻域中黑点的个数;

(2)、A(P1)=1A(x)是指在点x的邻域中按P2-P8的顺序,由黑变到白的次数,即由0变为1的次数;

(3)、P2*P4*P6=0

(4)、P4*P6*P8=0

如果满足以上四个条件则改点删除;

第二步细化的条件是:

(1)、2≤N(P1)≤6N(x)表示点x邻域中黑点的个数;

(2)、A(P1)=1A(x)是指在点x的邻域中按p2-p8的顺序,由黑变到白的次数,即由0变为1的次数;

(3)、P2*P4*P8=0

(4)、P2*P6*P8=0

如果满足以上四个条件则改点被删除;

重复以上两个步骤,图像便可以得到细化,按照图像中形状轮廓的像素粗细程度可以调整迭代次数,最终提取出图片中的骨架;

3)、设计卷积神经网络优化算法:

3.1、卷积神经网络中BP网络特征参数设置,这里采用文字复杂度和Hu几何不变矩;

3.1.1、文字复杂度:

一张带有文字的N×N维图片经过灰度二值化后可以表示为:

P(i,j)表示经过灰度二值化后的图片中每一个网络中的像素值,n表示维数,则一个文字的复杂指数可以表示为:

其中LX,Ly表示文字在横向与纵向的笔画总长度,σx,σy表示横向与纵向的质心二次矩的平方根:

其中,Gx,Gy表示文字质心坐标,N为文字网格点阵维数,增加设置复杂指数Cp,Cn,分别代表两种向上的特征:

3.1.2、Hu几何不变矩:

对于一张灰度分布为f(i,j)的图像,它的(p+q)阶矩有如下定义:

Mpq=∫∫xpypf(x,y)dxdy,p,q=0,1,2… (3-7)

(p+q)阶中心矩为:

Mpq=∫∫(x-x0)p(y-y0)qf(x,y)dxdy其中x0,y0为其矩心:

如果将图片看作是由M×N维不同像素组成的矩阵,则在这种离散的情况下,f(i,j)的(p+q)阶普通矩阵和中心矩为:

对于不同的图像,Mpq的值是会发生变化的,而中心矩拥有平移不变性,对旋转和缩放仍然较敏感,故归一化中心矩为:

其中,

4)、设计卷积神经网络优化算法:

4.1、卷积神经网络前向传播:

4.1.1、输入层到卷积层第一个卷积层神经元011的输入:

net011=conv(input,filter)π (4-1)

神经元O11的输出:(此处使用Relu激活函数:

out011=activators(net011)=max(0,net011) (4-2)

其他神经元计算方式相同;

4.1.2、卷积层到池化层,计算池化层m11的输入(取窗口为2*2),池化层没有激活函数;

netm11=max(O11,O12,O21,O22) (4-3)

outm11=netm11 (4-4)

4.1.3、池化层输出到flatten层把所有元素“拍平”,然后到全连接层,再通过softmax计算后到输出到output;

4.2、卷积神经网络的反向传播

4.2.1、由前向传播可得,每一个神经元的值都是上一个神经元的输入作为这个神经元的输入,经过激活函数激活之后输出,作为下一个神经元的输入,在这里用i11表示前一层,o11表示i11的下一层,那么neti11就是i11这个神经元的输入,outi11就是i11这个神经元的输出;为了简化直接把outi11记为i11

(1)、首先计算卷积的上一层的第一个元素i11的误差项δ11

δ11=∑mnhm,nδi+m,j+n·f′(neti11) (4-6)

(2)、权重梯度:

(3)、偏置项梯度:

可以看出,偏置项的偏导等于这一层所有误差敏感项之和;得到了权重和偏置项的梯度后,就可以根据梯度下降法更新权重和梯度了;

4.2.2、池化层的反向传播

计算出池化层的误差敏感项矩阵;同理可求出每个神经元的梯度并更新权重;

5)、设计TF-IDF关键词提取优化算法:

1)、用表示用车纸质材料文档中候选关键词的wi的词频,其中ni是候选关键词wi出现的次数,而分母是所有k个后选关键词出现次数之和;

逆文档频率即IDF,通常意义上用出现候选关键词的文档数除以总文档数再将得到的商取自然对数得到;但是由于没有标准的用车关键词标注语料库可以应用,因此从其他角度考虑;用表示语料库中与候选关键词wi长度相同的词语的总词频,表示候选关键词在语料库中的词频;

2)、用表示候选关键词wi归一化后的词长权重,则词长加权函数len(wi)表示候选关键词的实际长度,分母是候选关键词中最长词语的长度;

3)、由于用车纸质材料中的关键信息名词较多,因此对名词以及包含名词性成分的短语赋予更大的权重系数;表示词性权重,当词语i是名词性词语时否则为0;暂且假定tpos的取值如下,当词语i为:

a.命名实体,取为2;

b.一般名词,取为1.5;

c.包含名词成分的词语或短语,系统默认值为1;

4)、综合加权:

5)、通过人工检索和关键词提取实现一个标签词语库,出现在标签中的词语可以适当提高比率,使得提取结果更为准确。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江西省电力有限公司检修分公司;国家电网有限公司,未经国网江西省电力有限公司检修分公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910595554.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top