[发明专利]模式匹配系统、模式映射系统及方法有效
| 申请号: | 201110041757.1 | 申请日: | 2011-02-21 |
| 公开(公告)号: | CN102646099A | 公开(公告)日: | 2012-08-22 |
| 发明(设计)人: | 姜珊珊;谢宣松;孙军;赵利军;郑继川 | 申请(专利权)人: | 株式会社理光 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 黄小临 |
| 地址: | 日本*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 模式 匹配 系统 映射 方法 | ||
技术领域
本发明总的来说涉及与信息处理和信息整合技术,且更具体地,涉及基于混合属性-值匹配的模式匹配系统和模式映射系统及其方法。
背景技术
在信息处理和信息整合技术中,有时需要构建对象数据库,同时匹配不同对象副本中的对应项并整合异构的副本,这里,对象的副本通常被称为模式。
在互联网上存在着大量含有对象属性-值信息的网页,比如产品的规范说明页面。这些属性-值的表格可以通过信息抽取获取,作为自动建立对象数据库的第一步工作。但是异构的数据源网页对产品信息的展示方式也不尽相同,涉及不同的措辞,不同的表格结构,针对特定用户的不完全信息。因此,需要从一个现实世界中的产品对象的多个模式副本识别出其中的对应项,并整合这些异构的副本为一个一致的模式。以上所涉及的具体任务可以被划分为模式匹配和模式整合。
对于调和不同数据来源的模式,在Reconciling schema of disparate datasources:a machine learning approach,Doan AH,2001.In:Proc ACM SIGMODConf,pp.509-520中公开了一种机器学习方法。这种机器学习方法应用于数据集成系统,采用了基于元数据的学习方法。但是,当如上述情况,处理目标是网页中的表格而并非逻辑数据库中的表格或者XML文件时,由于所处理的数据缺少元数据和数据格式的约束,因此这种监督学习方法可能导致过度拟合且无法适应跨领域的数据。
在S-Match:an algorithm and an implementation of semantic matching中公开了一种语义匹配的算法及实现,即,S-Match,其是一种面向结构的模式匹配方法,通过使用WordNet计算词之间的距离,并使用SAT求解器推理映射。但是,WordNet虽然可用于挖掘语义相关性,但是在产品信息的面向实例的模式匹配中,并不适用。这是因为对于例如上述产品规范说明页面中的值表达式和解释性段落来说,很难定义其语义相似度。
在US 2008/0021912 A1,Tools and methods for semi-automatic schemamatching中,公开了一种半自动化模式匹配的工具和方法,这篇专利采用了多种外部词典,但是这种外部词典无法适应跨领域数据,并且其处理对象为富含元信息的XML数据。
在网络数据库中模式匹配的方法和系统(US 7249135 B2,Method andsystem for schema matching of web database.,MICROSOFT CORP)中,提供了一种方法实施在网络数据库中识别模式之间的匹配,这里的模式是网络数据库中表的模式;并且已知一个全局的模式,匹配主要依赖于模式与全局模式之间的匹配实现。但是,这里公开的方法和系统主要应用于网络数据库中的模式匹配,网络数据库为关系数据库,即输入的数据都是有完整元信息的数据库表格。但是对于数据源网页的表格,并没有元信息的约束,因此虽然实现了属性-属性匹配计算和值-值匹配计算,但是处理的数据主要为字符串类型,没有为数值数据提供特别的方法,因而在对于数值数据的匹配方面仍存在不足。此外,在上述方法和系统中使用了全局模式,因此需要先验性的领域或本体知识。
在一种从多网页中抽取和规范化产品属性的非监督方法(AnUnsupervised Framework for Extracting and Normalizing Product Attributes fromMultiple Web Sites)中,提供一种方法从多网页中同时抽取和规范化产品属性,这里属性的规范化即是指发现其中的语义相似性,将产品属性通过某种距离度量聚类,聚类结果为一条属性的可能词表。但是,在上述方法中,产品属性没有区分属性和值,即将例如上述数据源网页的表格中涉及的产品的属性和值看作是一条属性,因此,在进行匹配时必然导致匹配精度降低。此外,上述方法中所采用的距离度量是使用监督的机器学习方法训练所得,即在一个特定领域内,要进行一次距离计算,而在另一个领域内,距离要重新计算,这显然提高了系统应用的成本并造成了用户的不便。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110041757.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:皮肤清洁剂
- 下一篇:单周期执行高速缓存写命中操作的装置及方法





