[发明专利]海量非结构化电子文件的结构化处理方法及系统在审
| 申请号: | 201510870916.7 | 申请日: | 2015-12-01 |
| 公开(公告)号: | CN106815268A | 公开(公告)日: | 2017-06-09 |
| 发明(设计)人: | 白鹤;杨帆;罗亚林;王云福;涂红兵;侯斌;刘东海;戴伟琦 | 申请(专利权)人: | 中广核工程有限公司;中国广核集团有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 广州三环专利代理有限公司44202 | 代理人: | 王基才 |
| 地址: | 518023 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 海量 结构 电子 文件 处理 方法 系统 | ||
技术领域
本发明属于文档管理信息化技术领域,更具体地说,本发明涉及一种海量非结构化电子文件的结构化处理方法及系统。
背景技术
核电工程资料多以图纸,文档,软件输入输入数据,三维模型为主,其非结构化程度较高,通常使用企业内容管理平台(Enterprise Content Management,ECM)进行管理,企业内容管理平台将部分结构化信息存储在数据库中,便于通过特征元数据快速检索和利用,而技术资料的主要技术信息则存储在实体的电子文件中。
核电工程设计企业外部文档资料数量庞大,达到百万级别,尤其是AP1000、EPR三代核电技术转让资料,由于技术转让资料大部分是非结构化或半结构化文件档案,这些海量资料存在时间跨度大,数量庞大,编码复杂,文件版本多,重复提交现象严重,元数据信息不全,电子文件命名不规范等诸多问题。目前这些海量资料的结构化梳理方式以文档人员手动处理为主,不仅耗费大量人力物力,而且,海量资料人工梳理的工作效率极为低下。
因此,如何开发及提供一种能够对半结构化甚至非结构化核电文档资料进行高效的结构化处理的核电技术资料处理方法及系统,已成为亟待解决的技术问题。
发明内容
本发明的目的在于:针对现有技术的上述缺陷,提供一种通过智能化分布式处理方式对海量非结构化电子文件进行高效的结构化处理,节省人工成本, 显著提高数据结构化转换效率及准确率的结构化处理方法及系统。
为了实现上述发明目的,本发明提供了一种海量非结构化电子文件的结构化处理方法,该方法包括:
根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件;
根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据,并将该海量结构化数据导入核电企业内容管理系统。
本发明还提供了一种海量非结构化电子文件的结构化处理系统,该系统包括:
元数据形式化约束配置模块,用于根据核电技术资料的编码规范及匹配规则制定元数据形式化约束条件;
结构化处理模块,用于根据元数据形式化约束条件对海量非结构化电子文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据;
内容管理系统集成模块,用于将该海量结构化数据导入核电企业内容管理系统。
本发明提供了一种智能化程度高,科学严谨,简单实用,且运行可靠稳定的海量非结构化电子文件的结构化处理方法及系统,应用本发明海量非结构化电子文件的结构化处理方法及系统,可显著提高海量半结构化或非结构化电子文件(比如结构化程度低的海量核电技术文件)的结构化转换效率及准确率,降低人工成本。另外,本发明还可通过日志对元数据形式化约束条件校验或匹配过程中的报错作完整记录,利于后期追踪及回滚,本发明系统还支持对因存在数据噪声而被滤除,但经人工干预更正的那部分核电技术文件进行再一次的结构化处理,以提高非结构化数据结构化转换的成功率。
附图说明
下面结合附图和具体实施方式,对本发明海量非结构化电子文件的结构化处理方法及系统进行说明,其中:
图1为本发明较佳实施例提供的海量非结构化电子文件的结构化处理方法的流程图;
图2为图1中包含的海量非结构化核电技术文件的结构化处理过程的具体流程图;
图3为图2中包含的滤除海量核电技术文件中存在数据噪声的核电技术文件的流程图;
图4为图2中包含的将海量结构化核电技术文件导入核电企业内容管理系统的流程图;
图5为本发明另一较佳实施例提供的海量非结构化电子文件的结构化处理系统的结构框图;
图6为图5中结构化处理模块的结构框图;
图7为图6中数据噪声滤除子模块的结构框图。
具体实施方式
为了使本发明的发明目的、技术方案及其技术效果更加清晰,以下结合附图和具体实施方式,对本发明进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并非为了限定本发明。
如图1所示,针对现有技术中核电技术资料数量庞大且大部分为非结构化或半结构化的文件,结构化梳理方式落后且处理效率低下,以及人工成本高的技术缺陷,本发明提出了一种海量非结构化电子文件的结构化处理方法,该方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中广核工程有限公司;中国广核集团有限公司,未经中广核工程有限公司;中国广核集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510870916.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据存储方法和装置
- 下一篇:一种数据展示方法及装置





