[发明专利]单据要素抽取方法、装置、设备及存储介质有效
| 申请号: | 201911415309.6 | 申请日: | 2019-12-31 |
| 公开(公告)号: | CN111144370B | 公开(公告)日: | 2023-08-04 |
| 发明(设计)人: | 杜倩云;吴培浩;吴啟超 | 申请(专利权)人: | 科大讯飞华南人工智能研究院(广州)有限公司 |
| 主分类号: | G06V30/41 | 分类号: | G06V30/41;G06V30/42;G06V30/18;G06V30/26;G06V10/82;G06N3/0442;G06N3/082;G06N3/042;G06N3/0464 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 吕伟盼 |
| 地址: | 511458 广东省广州市南沙区丰泽*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 单据 要素 抽取 方法 装置 设备 存储 介质 | ||
1.一种单据要素抽取方法,其特征在于,包括:
获取单据图片的文本片段和所述文本片段对应的位置信息,根据所述位置信息确定所述文本片段的图像侧特征向量;
将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接,获取连续的文本序列;
对所述连续的文本序列进行重排序,获取符合阅读顺序的文本序列;
其中,所述根据所述位置信息确定所述文本片段的图像侧特征向量,具体包括:
获取单据图片的特征图,根据所述位置信息确定所述文本片段在所述特征图上对应区域的信息特征;
对所述信息特征进行池化处理,确定用于表征所述文本片段的图像信息的图像侧特征向量;
所述对所述连续的文本序列进行重排序,获取符合阅读顺序的文本序列,具体包括:
通过重排序模型,对所述连续的文本序列进行重排序,获取符合阅读顺序的文本序列;
所述重排序模型包括BiLSTM层、自注意力层和指针网络层;相应的,所述通过重排序模型,对所述连续的文本序列进行重排序,获取符合阅读顺序的文本序列,具体包括:
将连续的文本序列输入所述BiLSTM层,确定所述文本片段的上下文特征;
将所述上下文特征输入所述自注意力层,确定各单词的权重;
将所述上下文特征及所述各单词的权重输入所述指针网络层,由所述指针网络层输出所述符合阅读顺序的文本序列。
2.根据权利要求1所述的单据要素抽取方法,其特征在于,所述将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接,具体包括:
若所述文本片段包括多个单词,则对每一所述单词拼接相同的图像侧特征向量和图嵌入向量。
3.根据权利要求1所述的单据要素抽取方法,其特征在于,所述对所述连续的文本序列进行重排序,还包括:在所述重排序模型的训练过程中,使用交叉熵损失函数进行训练。
4.根据权利要求1所述的单据要素抽取方法,其特征在于,所述获取单据图片的文本片段和所述文本片段对应的位置信息具体包括:
通过光学字符识别方法,识别所述单据图片,获取所述文本片段和所述文本片段对应的位置信息。
5.根据权利要求4所述的单据要素抽取方法,其特征在于,所述将所述图像侧特征向量、所述文本片段的词嵌入特征及所述文本片段的图嵌入特征进行拼接,具体包括:
获取属性图,将所述属性图输入图卷积神经网络模型,由所述图卷积神经网络模型输出所述属性图中每个文本片段的向量表示;
将所述属性图中每个文本片段的向量表示作为所述文本片段的图嵌入特征。
6.一种单据要素抽取装置,其特征在于,包括:
第一处理单元,用于获取单据图片的文本片段和所述文本片段对应的位置信息,根据所述位置信息确定所述文本片段的图像侧特征向量;其中,所述根据所述位置信息确定所述文本片段的图像侧特征向量,具体包括:
获取单据图片的特征图,根据所述位置信息确定所述文本片段在所述特征图上对应区域的信息特征;对所述信息特征进行池化处理,确定用于表征所述文本片段的图像信息的图像侧特征向量;
第二处理单元,用于将所述图像侧特征向量、所述文本片段的词嵌入向量及所述文本片段的图嵌入向量进行拼接,获取连续的文本序列;
第三处理单元,用于通过重排序模型,对所述连续的文本序列进行重排序,获取符合阅读顺序的文本序列;其中,所述对所述连续的文本序列进行重排序,获取符合阅读顺序的文本序列,具体包括:
通过重排序模型,对所述连续的文本序列进行重排序,获取符合阅读顺序的文本序列;
所述重排序模型包括BiLSTM层、自注意力层和指针网络层;相应的,所述通过重排序模型,对所述连续的文本序列进行重排序,获取符合阅读顺序的文本序列,具体包括:
将连续的文本序列输入所述BiLSTM层,确定所述文本片段的上下文特征;
将所述上下文特征输入所述自注意力层,确定各单词的权重;
将所述上下文特征及所述各单词的权重输入所述指针网络层,由所述指针网络层输出所述符合阅读顺序的文本序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞华南人工智能研究院(广州)有限公司,未经科大讯飞华南人工智能研究院(广州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911415309.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:虚拟墙决策方法、装置和机器人
- 下一篇:虚拟机备份方法和备份虚拟机恢复方法





