[发明专利]文档处理有效
申请号: | 201810691975.1 | 申请日: | 2018-06-28 |
公开(公告)号: | CN109213870B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | J·R·普里斯塔斯;T·L·奥加拉;B·萨卡莱努;U·博万;M·考克兰;P·萨里斯丹;J·弗德;T·D·佩里;T·M·加夫尼;M·H·福托普洛斯 | 申请(专利权)人: | 埃森哲环球解决方案有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;黄捷 |
地址: | 爱尔兰*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 处理 | ||
1.一种从电子文档提取可编辑数据的文档处理系统,所述系统包括:
一个或多个处理器;以及
非暂态数据存储装置,其包括机器可执行指令,所述机器可执行指令使得所述一个或多个处理器执行以下操作:
将不可编辑图像文件转换为标记文件,
所述不可编辑图像文件与电子文档有关,以及
所述电子文档包括至少一个组件文档,以及
所述标记文件保留来自所述图像文件的所述组件文档的格式和结构;
解析所述标记文件以提取所述不可编辑图像文件的纯文本数据;
从所述标记文件中确定所述不可编辑图像文件的样式信息;
通过根据边界规则来分析所述标记文件的内容,自动地将所述纯文本数据划分成区段;
从所述纯文本数据的所划分的所述区段自动标识和提取实体,
所述标识使用自然语言处理(NLP)来执行;
使用以下至少一项来链接所述实体:
领域特定的本体论,
知识库,以及
图形推理;
生成交互式图形用户界面(GUI),
所述GUI显示内容,
所述内容包括根据所述样式信息而被格式化的所述纯文本数据,
所述GUI包括从所链接的所述实体确定的注释实体关系,以及
所述GUI使得能够进行用于编辑所述内容和所述注释实体关系中的一个或多个的用户交互;以及
向所述知识库传送对以下一项或多项的用户编辑:所述实体关系、所述内容、所述结构、以及所述格式。
2.根据权利要求1所述的系统,其中将所述不可编辑图像文件转换为所述标记文件的所述指令还包括使得所述一个或多个处理器执行以下操作的指令:
使用光学字符识别来标识所述不可编辑图像文件内的文本数据的特征;
确定非文本细节,所述非文本细节包括所述组件文档的文档结构;
获得与所述文本数据的特征和所述非文本细节相关联的标记标签;以及
通过依照所述文档结构将所述标记标签应用于所述文本数据来生成所述标记文件。
3.根据权利要求1所述的系统,其中用于自动划分所述纯文本数据的所述指令还使得所述一个或多个处理器执行以下操作:
预测与所述标记文件的页面相对应的所述纯文本数据的每个区段是否表示文档边界,
所述预测使用经训练的机器学习(ML)边界模型和所述边界规则而被执行。
4.根据权利要求3所述的系统,其中用于自动划分所述纯文本数据的所述指令还使得所述一个或多个处理器执行以下操作:
在所述区段之间的预测边界处创建分页符。
5.根据权利要求3所述的系统,其中用于自动划分所述纯文本数据的所述指令还使得所述一个或多个处理器执行以下操作:
使用相关性规则来预测所述纯文本数据的区段与当前任务相关还是不相关;以及
从所述纯文本数据中移除不相关区段。
6.根据权利要求1所述的系统,其中用于自动标识和提取实体的所述指令还使得所述一个或多个处理器执行以下操作:
使用所述领域特定的本体论和所述知识库来标识所述纯文本数据中的所述实体;以及
基于所述实体的相应语义类型,来将所述实体分类为条件实体和证据实体。
7.根据权利要求1所述的系统,其中用于自动标识和提取实体的所述指令还使得所述一个或多个处理器执行以下操作:
基于相关性规则来评估所述实体的相关性,所述相关性规则包括至少分析所述纯文本数据中的所述实体周围的上下文;以及
基于相关性规则来从进一步处理中移除所述实体的子集。
8.根据权利要求1所述的系统,其中链接所述实体的所述指令还使得所述一个或多个处理器执行以下操作:
使用领域特定的本体论来标识从证据实体到条件实体的所述链接;以及
通过采用被存储在所述知识库中的知识图,来发现所述条件实体和所述证据实体之间的新候选链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于埃森哲环球解决方案有限公司,未经埃森哲环球解决方案有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810691975.1/1.html,转载请声明来源钻瓜专利网。