[发明专利]识别纠偏系统及方法在审
| 申请号: | 201810087635.8 | 申请日: | 2018-01-30 |
| 公开(公告)号: | CN108416349A | 公开(公告)日: | 2018-08-17 |
| 发明(设计)人: | 王志成;张玉双;王亮;高磊;邝展豪;刘志欣;胡奉平 | 申请(专利权)人: | 顺丰科技有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/72 |
| 代理公司: | 北京瑞盟知识产权代理有限公司 11300 | 代理人: | 刘昕 |
| 地址: | 518000 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 结果数据 纠偏系统 纠偏 单据图像 单据信息 纠偏单元 纸质单据 单据 数据存储单元 图像获取单元 数据化处理 信息数据库 存储信息 文字序列 训练数据 准确率 数据库 图像 | ||
1.一种识别纠偏系统,对纸质单据信息进行数据化处理,其特征在于,包括:
图像获取单元,用于获取纸质单据图像;
识别单元,用于识别所述单据图像中的文字,得到单据的识别文本序列;
信息纠偏单元,用于对识别文本序列进行纠偏,得到纠偏后的单据信息。
2.根据权利要求1所述的识别纠偏系统,还包括数据存储单元,用于存储信息数据库、所述单据图像、所述单据的识别文本序列及所述纠偏后的单据信息,
其中,所述信息数据库为所述信息纠偏单元的训练数据。
3.根据权利要求2所述的识别纠偏系统,所述信息纠偏单元采用序列到序列算法模型将输入的识别文本序列映射为输出的文本序列。
4.根据权利要求3所述的识别纠偏系统,所述序列到序列算法模型包括编码器和解码器,所述编码器将所述识别文本序列与所述信息数据库进行比较,所述解码器将比较结果映射输出为所述纠偏后的单据信息。
5.根据权利要求4所述的识别纠偏系统,所述编码器通过编码计算文本序列的状态更新部分得到语境向量,所述解码器根据当前状态和语境向量解码得到所述纠偏后的单据信息。
6.根据权利要求5所述的识别纠偏系统,所述信息纠偏模型采用序列到序列算法模型结合注意力机制将输入的识别文本序列映射为输出的文本序列。
7.根据权利要求6所述的识别纠偏系统,所述注意力机制将所述语境向量与每一时刻的识别文本序列相关联成为加权的语境向量,所述解码器解码得到所述纠偏后的单据信息。
8.根据权利要求1所述的识别纠偏系统,所述识别单元采用OCR技术对单据图像进行文字识别。
9.根据权利要求1-8任一项所述的识别纠偏系统,所述纸质单据信息为快递运单地址信息。
10.根据权利要求9所述的识别纠偏系统,所述信息数据库为大数据和地理信息整合得到的完整地址信息训练数据。
11.根据权利要求10所述的识别纠偏系统,所述信息纠偏单元将所述识别结果数据集与所述完整地址信息训练数据进行比较,对快递运单地址进行纠错和补全,映射输出为完整的地址信息。
12.一种识别纠偏方法,对纸质单据信息进行数据化处理,其特征在于,包括如下步骤:
通过图像获取单元获取纸质单据图像;
用识别单元对所述单据图像进行文字识别技术处理,得到单据的识别文本序列;
通过信息纠偏单元对所述识别文本序列进行纠偏,得到纠偏后的单据信息。
13.根据权利要求12所述的识别纠偏方法,还包括将信息数据库预先存储到数据存储单元,并对单据图像、所述单据的识别结果数据集及所述纠偏后的单据信息进行存储的步骤,
其中,所述信息数据库为所述信息纠偏单元的训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810087635.8/1.html,转载请声明来源钻瓜专利网。





