[发明专利]基于模糊优先级的二阶段实例层数据集成方法有效
申请号: | 201310116388.7 | 申请日: | 2013-04-03 |
公开(公告)号: | CN103164531A | 公开(公告)日: | 2013-06-19 |
发明(设计)人: | 冯钧;盛震宇;唐志贤;李士进;朱跃龙;万定生;徐黎明;冯读庆;许潇;姜康;陈焕霖;刘子源;朱康康;史涯晴 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模糊 优先级 阶段 实例 数据 集成 方法 | ||
技术领域
本发明涉及一种基于模糊优先级的二阶段实例层数据集成方法,关于数据存储节点模糊优先级指标的定义、实例层冲突判断及冲突解决的二阶段数据集成方法,属于数据集成的技术领域。
背景技术
随着各领域信息化的进程,数据的采集、存储、处理和传播的数量也与日俱增。实现数据共享,可以使更多的行业部门充分使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。
数据集成的核心任务是要将分布式异构数据源集成到一起,使用户能够以透明和统一的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享率。透明的方式是指用户无需关心如何实现对异构数据源数据的访问,以及如何组织系统中的数据。数据集成可以将数据内容、格式、质量进行统一,便于共享。因此,它是解决数据共享的关键。
为了支持正确决策,就要求集成系统管理的数据可靠、一致、没有错误、能准确地描述实际情况。指代同一现实世界对象的多条记录,如果它们的属性值存在不一致现象,这就称为实例层数据不一致。实例层数据不一致的消除可以使数据内容统一,是保障数据集成质量的关键步骤。
目前处理实例层不一致性问题的主要方法包括三类:基于冲突产生原因的处理策略、基于SQL方法及自定义函数的处理策略、基于集成质量评估的处理策略。第一类方法使用了相似度计算来检测或排除实例层的不一致,在数据源无偏向性的情况下,这类方法针对字符形式的数据处理十分有效。但是这类方法没有考虑数据源的偏向性,某些情况无法做出正确判断,且对非字符形式的实例层不一致无法有效解决;第二类方法给出了集成异构数据源的操作,处理实例层不一致问题的策略简单易行,效率高。但是它们对数据不一致处理操作可控性不足,无法预知集成结果,缺乏质量评估,无法满足高质量数据集成的要求;第三类方法考虑了数据源的质量评估,有效提高了数据集成的质量,在对集成数据质量要求高的环境下,这类方法较为合适。但是这类方法只考虑了数据源的质量,而没有考虑到分布式环境下其它要素的评估。同时,这一类方法对数据不一致性处理方式单一,集成效率不高,不适合海量数据集成。
在实际数据集成工作中,由于数据量呈现海量趋势,传统方法只靠单一处理方式显得不足。如果采用复杂的方法,数据集成结果精度提高了,但是效率很低;如果采用简单方法,效率提高了,但是缺乏准确度。因此,我们希望提出一种二阶段数据集成方法,先对集成情况进行判断,区分出实例层的强弱冲突。然后根据判断情况,分别使用强冲突处理方法和弱冲突处理方法来实现集成。并且为了提高强冲突时集成的准确度,我们对存储节点采用模糊优先级评估,消除主观误差。所以,我们的方法在提高集成效率的同时,尽量提高结果准确度。
发明内容
发明目的:本发明针对现有数据集成方法中集成效率与结果准确度无法同时平衡的不足,本发明提供一种基于模糊优先级的二阶段实例层数据集成方法。先确定待集成记录所属分布式存储节点的优先级指标及每个指标的权重,采用三角模糊数来表示模糊优先级;数据集成时,根据投票机制区分出实例层的强弱冲突;若为弱冲突,则采用多数一致属性值作为集成后的结果;若为强冲突,则通过构建去模糊化的融合决策矩阵,计算每条记录与正理想解的隶属度来决定集成所采用的属性值。本发明保证了海量数据集成中的集成效率并提高了集成结果精度。
技术方案:一种基于模糊优先级的二阶段实例层数据集成方法,一种基于模糊优先级的二阶段实例层数据集成方法,其特征在于,包括模糊优先级模型建立和二阶段实例层数据集成,其中:所述模糊优先级模型建立包括分布式存储节点优先级指标的设置、优先级指标的模糊化表示;所述二阶段实例层数据集成包括利用投票机制的强弱冲突判断、弱冲突解决以及强冲突解决;
实现步骤如下:
步骤1,为分布式存储节点进行优先级指标定性判断,然后采用三角模糊数对优先级指标进行表示,同时为各个优先级指标根据应用需求赋以权值;
步骤2,对于发生实例层冲突的记录项,按照集成准确度的需求选用三分之二投票制或半数投票制的方法区分出强弱冲突;
若冲突为弱冲突,则转向步骤3;否则,转向步骤4;
步骤3,对于弱冲突情况,采用多数属性值一致的记录作为集成后的输出结果,转向步骤5;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310116388.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纤维分离机的刀盘
- 下一篇:一种胶原纤维平纹布复合仿真皮