[发明专利]海量非结构化电子文件的结构化处理方法及系统在审

专利信息
申请号: 201510870916.7 申请日: 2015-12-01
公开(公告)号: CN106815268A 公开(公告)日: 2017-06-09
发明(设计)人: 白鹤;杨帆;罗亚林;王云福;涂红兵;侯斌;刘东海;戴伟琦 申请(专利权)人: 中广核工程有限公司;中国广核集团有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州三环专利代理有限公司44202 代理人: 王基才
地址: 518023 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 海量 结构 电子 文件 处理 方法 系统
【权利要求书】:

1.一种海量非结构化电子文件的结构化处理方法,其特征在于,该方法包括:

根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件;

根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据,并将该海量结构化数据导入核电企业内容管理系统。

2.根据权利要求1所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理的步骤包括:

根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息,该结构化信息包括海量非结构化核电技术文件的文件属性、目录属性及内容属性;

将抽取的结构化信息存储于元数据结构化信息数据库。

3.根据权利要求2所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息的步骤包括:

提取海量非结构化核电技术文件中的元数据,获得海量非结构化核电技术文件的文件属性及目录属性;以及

对海量非结构化核电技术文件进行分布式内容分析,利用Map&Reduce抽取海量非结构化核电技术文件中的关键字,将抽取的关键字作为包含于海量非结构化核电技术文件的结构化信息中的内容属性。

4.根据权利要求1所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据元数据形式化约束条件执行海量非结构化电子文件的结构化处理 的步骤还包括:

根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件。

5.根据权利要求4所述的海量非结构化电子文件的结构化处理方法,其特征在于,根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件的步骤具体包括:

抓取非结构化核电技术文件自带的结构化信息,通过元数据形式化约束条件对抓取的结构化信息进行校验,以判断该结构化信息是否符合元数据形式化约束条件;

如该结构化信息不符合元数据形式化约束条件,则将该非结构化核电技术文件归为存在数据噪声的核电技术文件并报错;

如该结构化信息符合元数据形式化约束条件,则将该结构化信息与元数据结构化信息数据库中的结构化信息进行匹配分析,判断两者是否匹配成功;

如匹配成功,则执行下一个非结构化核电技术文件的抓取及匹配工作;反之,将该非结构化核电技术文件归为存在数据噪声的核电技术文件并报错。

6.根据权利要求5所述的海量非结构化电子文件的结构化处理方法,其特征在于,将非结构化核电技术文件的结构化信息与元数据结构化信息数据库中的结构化信息进行匹配分析的步骤具体包括:

应用匹配分值计算公式计算该非结构化核电技术文件的结构化信息在基于不同维度及权重的结构化元数据结构框架下的匹配分数,将该匹配分数与设定的匹配分数阈值进行比较;如该非结构化核电技术文件的结构化信息的匹配分数超过该设定的匹配分数阈值,则判定匹配成功,并建立匹配成功的结构化信息及其对应的经结构化处理的核电技术文件的映射关系;

该匹配分值计算公式如下所示:

其中:

MatchMeta(Δ)表示非结构化核电技术文件的结构化信息在结构化元数据结构框架下的匹配分数;

δi表示将核电技术文件的结构化数据按元数据规则划分成的n个元数据/元数据组中第i个元数据/元数据组;

λi表示第i个元数据/元数据组的权值;

Fii,mi)为用于计算划分的每个元数据/元数据组的匹配分值的匹配函数。

7.根据权利要求4或5所述的海量非结构化电子文件的结构化处理方法,其特征在于,该方法在过滤存在数据噪声的非结构化核电技术文件之后还包括:

通过日志记录及保存报错信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中广核工程有限公司;中国广核集团有限公司,未经中广核工程有限公司;中国广核集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510870916.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top