[发明专利]基于元数据去除重复对象的方法有效
| 申请号: | 200710106024.5 | 申请日: | 2007-05-29 |
| 公开(公告)号: | CN101286156A | 公开(公告)日: | 2008-10-15 |
| 发明(设计)人: | 高飞 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/00 |
| 代理公司: | 北京中博世达专利商标代理有限公司 | 代理人: | 张岱 |
| 地址: | 100871北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 数据 去除 重复 对象 方法 | ||
技术领域
本发明涉及一种数据清理的方法,尤其涉及一种在数据集合中去除重复对象的方法。
背景技术
在信息社会,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。结构化数据属于非结构化数据,是非结构化数据的特例。
结构化数据类型是一种用户定义的数据类型,它包含一些非原子的元素,更确切地说,这些数据类型是可以分割的,它们既可以单独使用,又可以在适当情况下作为一个独立的单元使用。
在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估,选择等功能。
没有好的数据环境,就不会有理想的挖掘结果.但现实世界的数据一般都是脏的、不完整的和不一致的。使用数据预处理将可能创造这个环境。
目前,随着网络的发展,各种各样的元数据数量急剧增长。由于增长的元数据质量参差不齐,各种来源存在大量重复数据,给后续的基于其上的业务带来了不小的麻烦。因为一旦元数据重复处理不好,基于其上的业务逻辑便会产生问题,以致带来损失。比如在图书销售网站,图书书目的重复数据较多,就可能导致用户不知如何下订单。在过去,这类问题通常是由人工判断,但随着数据量的不断增长和积累,由此带来的人力消耗也急剧增加。故如何对大量的元数据进行判重处理成了一个首要的问题。
一直以来,业内对于网络非结构数据判重问题研究较多,各种算法成果也层出不穷,且目前的各类搜索引擎中均有运用。但元数据作为带语义的结构化数据,其判重标准和准确度的要求都更为精确。故现有的对于非结构化数据的判重方案,并不能完全满足元数据判重的要求。另外,通常应用于数据库的精确判重方案更不能适合在元数据这种本身可能存在部分数据错误的环境中。
发明内容
本发明提供一种能够精确判别重复数据,并将重复数据清除的基于元数据去除重复对象的方法。
本发明采用以下技术方案:本发明基于元数据去除重复对象的方法,包括如下步骤:
1)对当前待录入的元数据进行规范化处理,判断其是否为质量较好的待录入元数据;
2)将质量较好的待录入元数据与数据集合中每一条记录进行比较,判断数据集合中是否有与待录入元数据重复的记录;
3)如果有重复记录,在二者之中选取质量好的作为数据集合的记录。
所述当前待录入的元数据至少包括如下字段:国际标准书号、书名、作者、出版社、出版时间、价格字段。
所述国际标准书号由10位数字组成,这10位数字由组号、出版者号、书名号、校验号这四部分组成,其间用“--”相连,出版者号是出版社的代号。
所述“对当前待录入的元数据进行规范化处理”包括如下步骤:
1)判断当前待录入的元数据的国际标准书号是否含有非数字字符;如果有非数字字符,将该非数字字符删除后,保留该当前待录入的元数据;
2)判断当前待录入的元数据的国际标准书号是否由10位数字组成?如果国际标准书号不是10位数字,则分为两种情况处理:国际标准书号少于8位,则丢弃该当前待录入的元数据;国际标准书号超过10位,则将10位以后的数字删除后,保留该当前待录入的元数据;
3)验证当前待录入的元数据的国际标准书号是否正确;
4)如果当前待录入的元数据的国际标准书号正确,再验证当前待录入的元数据的出版社是否正确;
如果当前待录入的元数据的出版社正确,则当前待录入的元数据即为所述“质量较好的待录入元数据”。
所述“验证当前待录入的元数据的国际标准书号是否正确”的方法为:国际标准书号的第1到第9位数字顺序乘以10至2这9个数字,将这些乘积之和再加上校验号,假如能被11整除,则这个国际标准书号是正确的;
所述“验证当前待录入的元数据的出版社是否正确”的方法为:
从已规范化的国际标准书号中选取出出版者号验证当前待录入的元数据的出版社是否正确;
如果出版者号与当前待录入的元数据的出版社存在对应关系,则当前待录入的元数据的出版社是正确的;
如果出版者号与当前待录入的元数据的出版社不存在对应关系,则当前待录入的元数据的出版社是不正确的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710106024.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





