[发明专利]监视电子文件的系统和方法在审
申请号: | 201780060466.2 | 申请日: | 2017-08-03 |
公开(公告)号: | CN109791560A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | N·古兹曼;I·萨夫特 | 申请(专利权)人: | 瓦特博克有限公司 |
主分类号: | G06F16/93 | 分类号: | G06F16/93 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 郑勇 |
地址: | 以色列*** | 国省代码: | 以色列;IL |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子文件 交易参数 创建 非结构化数据 监视 结构化数据 关联 分析 | ||
一种监视电子文件的系统和方法。该方法包括:分析第一电子文件以确定至少一个交易参数,其中第一电子文件包括至少部分非结构化数据;为第一电子文件创建模板,其中所创建的模板是包括所确定的至少一个交易参数的结构化数据集;以及将所创建的模板的数据和与多个第二电子文件相关联的数据进行比较,以标识第一电子文件中的至少一个异常。
相关申请的交叉引用
本申请要求于2016年8月5日提交的、序列号为62/371,234的美国临时申请的优先权。本申请同时也是于2016年11月28日提交的、序列号为15/361,934的待决美国专利申请的部分延续案。上述申请的内容通过引用并入此文。
技术领域
本发明总体地涉及监视数据系统中的文件,以及更具体地涉及识别电子文件中的异常。
背景技术
由于近几十年来技术的快速发展,世界各地人们之间的通信变得越来越快捷方便。因此,以前在数天或数周才能完成的交易现在可以在几秒钟内完成。特定企业现在可以每年完成数千或数百万笔交易。其中一些交易可能是重要的大规模交易。
随着企业越来越依赖技术来管理与发票和采购订单数据等操作相关的数据,用于恰当管理和验证数据的合适系统已成为成功的关键。特别是对于大型企业而言,企业每天使用的数据量可能非常大。因此,在最好的状态下,人工审查和验证此类数据是不切实际的。然而,多份记录保存文件之间的差异可能会给企业带来严重问题,例如,未能向税务机关恰当地申报收入。
因此,企业非常希望快速检测并纠正公司记录中的任何异常。当企业使用多个供应商提供服务和商品时,这个问题可能特别困难,因为来自不同供应商的记录可能包含不同的信息、可能以不同的格式编排、可能包含价格的错误或突然变化等。此外,当以非结构化数据格式接收公司记录时,识别异常可能是具有挑战性的。例如,发票通常以显示发票扫描件的图像文件接收。
现有一些用于自动识别扫描文件(例如,发票和收据)或其他非结构化电子文件(例如,非结构化文本文件)中的信息的解决方案。这些解决方案在准确标识和识别电子文件的字符和其他特征方面经常面临挑战。此外,输入的非结构化电子文件的内容退化通常导致更高的错误率。结果,现有的图像识别技术在理想情况下(即,非常清晰的图像)并不完全准确,而当输入图像不太清楚时,它们的准确度通常会急剧下降。此外,丢失或不完整的数据可能在随后的数据使用期间导致错误。许多现有解决方案不能识别丢失的数据,除非例如结构化数据集中的字段不完整。
此外,现有的图像识别解决方案可能无法准确识别部分或全部特殊字符(例如,“!”、“@”、“#”、“$”、“%”、“&”等)。作为示例,一些现有的图像识别解决方案可能不准确地将扫描的收据中所包含的短划线标识为数字“1”。作为另一个例子,一些现有的图像识别解决方案不能识别诸如美元符号、日元符号等特殊字符。
此外,这些解决方案在为后续使用而准备识别信息可能面临挑战。具体地,许多这样的解决方案或者以非结构化格式产生输出,或者只有输入的电子文件被特定地格式化以供图像识别系统识别,才能产生结构化输出。产生的非结构化输出通常无法有效处理。特别地,这种非结构化输出可以包含重复,并且可以包括在使用之前需要后续处理的数据。
因此,提供克服现有技术的种种缺陷的技术方案是有利的。
发明内容
本文公开的几个示例性实施例概述如下。提供概述是为了方便读者提供对此类实施例的基本理解并且不完全限定所公开的广度。该概述不是所有预期实施例的广泛概述,并且既不旨在标识所有实施例的关键或重要元素,也不旨在描绘任何或所有方面的范围。其唯一目的是以简化形式呈现一个或多个实施例的一些概念,作为稍后呈现的更详细描述的前序。为方便起见,本文可使用术语“一些实施例”来指代本发明的单个实施例或多个实施例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瓦特博克有限公司,未经瓦特博克有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780060466.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:促进图像作为搜索查询的使用
- 下一篇:分布式语义描述符上的语义查询