[发明专利]文档数字化中的语义规范化有效
申请号: | 201880069289.9 | 申请日: | 2018-11-30 |
公开(公告)号: | CN111263943B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | K·诺思罗普;C·特里姆;T·希克凯;A·阿德尼兰;K·诺思罗普 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;姚杰 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 数字化 中的 语义 规范化 | ||
1.一种用于规范化文档图像中的键的计算机实现的方法,包括:
由计算机的一个或多个处理器,获得所述文档图像的文档元数据,其中所述文档元数据包括针对出现在所述文档图像中的每个对象的上下文、位置和样式;
基于候选键与所述键语义可互换,识别与所述文档图像中的对象相对应的候选键为键本体数据中的键;
将所述候选键规范化为规范化形式;
确定与所述规范化形式相对应的键类,其中,所述键类与所述键本体数据中的键相关联;
基于所述文档元数据,评估所述键类的置信度分数,其中,所述置信度分数指示由所述候选键表示所述键类的可能性;以及
基于根据预配置的验证方式验证所述键类,用所述键类更新语义数据库,使得所述键类可以与出现在其他文档图像中的语义上可互换的文本有效地相关联。
2.根据权利要求1所述的计算机实现的方法,还包括:
导出所述键类的零个或多个别名;
将所导出的别名与对应于来所述自语义数据库的所述键的键别名集合中的别名进行比较;
发现所述导出的别名不存在于所述键别名集合中并且对应于所述导出的别名中的每个的相应置信度分数大于预配置的阈值;以及
用所导出的别名更新语义数据库。
3.根据权利要求1所述的计算机实现的方法,其中,所述键本体数据中的所述键等于所述键类。
4.根据权利要求1所述的计算机实现的方法,所述评估包括:
将在所述文档元数据中指定的所述候选键的上下文与所述键类的上下文进行比较,其中,所述候选键的所述上下文指示在所述文档图像中与所述候选键一起出现的其他对象,并且其中,所述键类的所述上下文指示在过去的文档图像中与所述键类的键一起出现的其它典型对象;以及
与所述候选键的所述上下文和所述键类的所述上下文之间的相似性水平成比例地调整所述置信度分数。
5.根据权利要求1所述的计算机实现的方法,所述评估包括:
将在所述文档元数据中指定的所述候选键的位置与所述键类的位置进行比较,其中,所述候选键的所述位置指示所述候选键出现在所述文档图像的相对位置,并且其中,所述键类的所述位置指示所述键类的键的在过去文档图像出现的相对位置;以及
与所述候选键的所述位置和所述键类的所述位置之间的相似性水平成比例地调整所述置信度分数。
6.根据权利要求1所述的计算机实现的方法,所述评估包括:
将在所述文档元数据中指定的所述候选键的样式与所述键类的样式进行比较,其中,所述候选键的所述样式指示与出现在所述文档图像的其它对象的样式相关的所述候选键的字体类型和大小,并且其中,所述键类的所述样式指示与通常出现在过去文档图像的其它对象的样式相关的所述键类的键的字体类型和大小;以及
与所述候选键的所述样式和所述键类的所述样式之间的相似性水平成比例地调整所述置信度分数。
7.根据权利要求1所述的计算机实现的方法,其特征在于,所述规范化形式是扩展巴科斯-诺尔形式(EBNF)表示法,并且其中所述文档元数据以JavaScript对象表示法(JSON)格式来表达。
8.根据权利要求1所述的计算机实现的方法,其中,在所述键本体数据中指定的所述键是关系数据库中的数据字段的名称,其中,所述键与从所述文档图像提取的值相关联,并且所述键和所述值在所述关系数据库中形成键-值对以用于未来计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880069289.9/1.html,转载请声明来源钻瓜专利网。