[发明专利]一种基于一阶逻辑和神经网络的数据对应方法有效

申请号：	201210211474.1	申请日：	2012-06-26
公开（公告）号：	CN102799627A	公开（公告）日：	2012-11-28
发明（设计）人：	黄少滨;刘国峰;朴秀峰;申林山;刘刚;刘建华	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于一阶逻辑神经网络数据对应方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据迁移、数据集成领域，具体涉及一种高匹配效率和准确率的基于一阶逻辑和神经网络的数据对应方法。

背景技术

随着网络和数据库技术的不断发展，数据的种类和数量也在不断的增加，因此，对于异构数据的共享和相互之间的转换等技术问题也变成迫切需要解决的问题。在语义WEB、数据仓库、P2P数据库、模式集成和电子商务等领域，都对异构数据的共享和相互之间的转换进行了深入的研究。模式匹配作为实现异构数据共享的第一步，在整个数据处理过程中起到了不能替代的作用。目前实现异构数据的转换等工作大都是由操作人员手工进行，这就要求操作人员必须对数据库的信息，比如模式结构和模式中元素的语义都很熟悉，这样才能够完成对异构数据的共享和转换，因此对异构系统数据的处理是一个比较复杂的过程。随着业务复杂度和系统复杂度的不断增加，系统所需要的数据的复杂程度，都比现有的数据情况要复杂的多，在这种情况下，单纯依靠人工来完成异构数据集成过程，显然太困难，因此对异构数据集成的自动化需求就越来越迫切。

到目前为止，对数据对应的方法研究也取得了一些成果。2000年Northwestern University 开发的SemInt(A Tool for Identifying Attribute Correspondences in Heterogeneous Database Using Neural Networks)是一个应用混合匹配技术的模式匹配系统，它主要应用神经网络技术去确定匹配候选集，并在两个模式的单属性间建立一个映射，匹配基数是1:1；2001年VLDB(Very Large Data Base)会议上提出的Cupid(Generic schema matching with Cupid)是一种通用化的混合匹配方法，将名字匹配器与结构化匹配算法相结合，根据这个结构化算法可以推导出属性的相似度，而属性的相似度是根据属性组件(主要是属性名字和属性的数据结构)的相似性得出；2002年VLDB会议上提出的COMA(A System for Flexible Combination of Schema Matching Approaches)是一种合成的模式匹配方法，它提供一个承载了多个不同匹配器的外部知识库，并且支持多种结合匹配结果的方法；2002年ICDE(International Conference on Data Engineering)会议上提出的SF(Similarity Flooding：A Versatile Graph Matching Algorithm)是一种基于模式结构相似度的匹配方法；2004年SIGMOD(Special Interest Group on Management of Data)会议上提出的iMap(Discovering complex semantic matches between database schemas)是一种基于模式信息和实例信息的混合匹配方法；2005年ICDE会议上提出的基于副本的模式匹配方法主要利用被匹配模式的数据集中存在的重叠数据来指明模式间的匹配关系，是一种基于实例的模式匹配技术；2005年国防科技大学在NDBC(National Data Base Conference)会议上提出的SMDD(Schema Mapping Method based on Data Distribution)是一种基于数据实例分析特征的模式匹配方法；2009-2010年李国徽等提出了基于函数依赖的结构匹配方法和基于部分函数依赖的结构匹配方法。

前面所述的方法虽然能够解决模式匹配中的一些匹配问题，但是并不完善，并且对于历史的匹配信息并没有加以利用，导致下次再进行数据对应的操作时，仍然需要对一些已知规则的匹配利用匹配算法进行重新匹配，这样既浪费的时间也影响了匹配的准确率。而本发明则充分利用了历史匹配的知识，通过利用一阶逻辑和神经网络对已完成匹配模式中的信息进行训练，来完成整个数据对应的过程。

发明内容

本发明的目的在于提供一种匹配时间更短、准确率更高的基于一阶逻辑和神经网络的数据对应方法。

本发明的目的是这样实现的：

本发明包括如下步骤：

（1）分析已完成匹配的数据模式，建立待匹配模式的表和字段形式的格式；

（2）将选择训练的模式转换为表向量，存放在待匹配表训练集合中，包括表名、正样本数据、负样本数据和断言集合；

（3）使用一阶逻辑的表特征提取算法对集合中的表进行特征提取；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210211474.1/2.html，转载请声明来源钻瓜专利网。