[发明专利]信息抽取模型的构建方法、信息抽取方法及装置在审
申请号: | 202111672770.7 | 申请日: | 2021-12-31 |
公开(公告)号: | CN116416448A | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 张悦;顾立新;曾华荣;韩锋;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V20/62;G06V10/774;G06V10/82;G06N3/0442;G06N3/08 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 武慧南;苏银虹 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 抽取 模型 构建 方法 装置 | ||
1.一种信息抽取模型的构建方法,其特征在于,包括:
获取分类训练样本集和分类标注信息,其中,所述分类训练样本集中的每个分类训练样本包括分类训练文本框在图像中的位置和分类训练文本框中的文字,所述分类标注信息表示分类训练样本的分类训练文本框属于预设文本框类别中的哪一类别;
基于所述分类训练样本集和所述分类标注信息,训练用于对文本框进行分类的文本框分类模型;
获取提取训练样本集和提取标注信息,其中,所述提取训练样本集的每个提取训练样本为包括一个或多个文字的提取训练文字序列,所述提取标注信息表示提取训练文字序列中的每个文字在信息实体的预设参考位置中的哪一位置;
基于所述提取训练样本集和所述提取标注信息,训练用于从文本框中提取文字的文本提取模型;
基于训练好的文本框分类模型和训练好的文本提取模型,构建用于从图像中抽取信息实体的信息抽取模型。
2.根据权利要求1所述的构建方法,其特征在于,获取所述分类标注信息的步骤包括:
获取所述图像中的多个预标注文本框的位置和所述预标注文本框的类别;
基于所述分类训练文本框的位置和所述多个预标注文本框的位置,确定所述分类训练文本框与所述多个预标注文本框中的每个之间的面积重叠度,并基于所述面积重叠度对分类训练文本框进行标注,以获取所述分类标注信息,
其中,所述面积重叠度指的是分类训练文本框与预标注文本框的重叠面积与预标注文本框的面积的比值,当分类训练文本框与预标注文本框的面积重叠度大于预设阈值时,将分类训练文本框标注为与相应的预标注文本框相同的类别。
3.一种信息抽取方法,其特征在于,包括:
获取关于待抽取信息的图像的图像数据,其中,所述图像数据包括所述图像中的文本框的位置和每个文本框中的文字;
基于所述图像数据,使用信息抽取模型抽取所述图像中的信息,其中,所述信息抽取模型是根据权利要求1或2所述的信息抽取模型的构建方法构建得到的。
4.一种信息抽取方法,其特征在于,包括:
获取待抽取信息的图像的图像数据,其中,所述图像数据包括图像中的文本框的位置和每个文本框中的文字;
基于所述文本框的位置和所述文本框中的文字,按照预设文本框类别,对所述文本框进行分类,其中,所述预设文本框类别代表文本框中的文字所表示的信息实体的类别;
将被分类为同一类别的文本框中的文字组合为文本序列;
针对每个类别,基于所述文本序列,预测所述文本序列中的每个文字在相应类别所对应的信息实体中的文字位置;
按照所预测的文字位置,从所述图像数据中抽取出每个类别下的信息实体,以用于根据信息实体确定所述图像中的信息。
5.一种信息抽取模型的构建装置,其特征在于,包括:
第一获取单元,被配置为获取分类训练样本集和分类标注信息,其中,所述分类训练样本集中的每个分类训练样本包括分类训练文本框在图像中的位置和分类训练文本框中的文字,所述分类标注信息表示分类训练样本的分类训练文本框属于预设文本框类别中的哪一类别;
第一训练单元,被配置为基于所述分类训练样本集和所述分类标注信息,训练用于对文本框进行分类的文本框分类模型;
第二获取单元,被配置为获取提取训练样本集和提取标注信息,其中,所述提取训练样本集的每个提取训练样本为包括一个或多个文字的提取训练文字序列,所述提取标注信息表示提取训练文字序列中的每个文字在信息实体的预设参考位置中的哪一位置;
第二训练单元,被配置为基于所述提取训练样本集和所述提取标注信息,训练用于从文本框中提取文字的文本提取模型;
构建单元,被配置为基于训练好的文本框分类模型和训练好的文本提取模型,构建用于从图像中抽取信息实体的信息抽取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111672770.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水下旋转密封装置
- 下一篇:语音特征提取、识别、训练方法及相关装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置