[发明专利]数据提取的方法及装置在审
| 申请号: | 201510474190.5 | 申请日: | 2015-08-05 |
| 公开(公告)号: | CN105045900A | 公开(公告)日: | 2015-11-11 |
| 发明(设计)人: | 郑亮;陈根方 | 申请(专利权)人: | 石河子大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
| 地址: | 832003 新疆维*** | 国省代码: | 新疆;65 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 提取 方法 装置 | ||
技术领域
本发明涉及数据处理领域,尤其涉及一种数据提取的方法及装置。
背景技术
现今数据种类繁多,在对数据的数字化处理过程中,可采集到各种类型的数据,对某一类事件或现象的记录和采集有多种方式,比如文字描述、相机拍照、拍摄、电话记录、短信、微信、博客、邮件、电视台、广播台等。在这些数据中,体现出数据类型多样、数据源多样、数据结构复杂、数据容量庞大等特征。
面对这些多种多样且数量十分庞大的数据,如果需要进行某种数据提取或数据统计的话,目前主流的处理思路在于通过数据相似度的比较,将过于相似甚至完全相同的多份数据择一保留,剔除重复数据,达到数据去重的目的。例如,对拍摄内容基本相同的多张照片进行去重处理,或者对语义内容实质相同的文本信息进行去重处理等。由于数据类型多种多样,并且数据本身大多又是半结构化或非结构化的异构数据,因此现有的数据提取方式主要是由人工操作实现,网络运营人员通过肉眼比对及手动筛选的方式完成有用数据的提取。
在上述数据提取的过程中,发明人发现:随着大数据时代的到来,网络中的数据量将会成几何状增长。面对如此庞大的数据量,人工提取数据的方式需要消耗大量的处理时间,提取效率过于低下。
发明内容
本发明提供了一种数据提取的方法及装置,能够解决人工提取数据效率低下的问题。
为解决上述技术问题,一方面,本发明提供了一种数据提取的方法,该方法包括:
对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据;
计算所述第一数据和所述第二数据的相似度;
若所述第一数据和所述第二数据的相似度满足预设的相似度阈值,则删除位置在后的所述第二数据;
保留位置在前的所述第一数据,获得摘要信息。
另一方面,本发明还提供了一种数据提取的装置,该装置包括:
处理单元,用于对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据;
计算单元,用于计算所述处理单元获得的所述第一数据和所述第二数据的相似度;
删除单元,用于当所述计算单元计算的所述第一数据和所述第二数据的相似度满足预设的相似度阈值时,删除位置在后的所述第二数据,保留位置在前的所述第一数据,获得摘要信息。
本发明提供的数据提取的方法及装置,能够通过计算机自动对数据进行预处理,获得第一数据和第二数据,并对第一数据和第二数据的相似度进行计算,若两者满足相似度阈值,则说明第一数据和第二数据是重复的,计算机自动删除第二数据以达到剔除冗余数据,保留数据摘要信息的目的。与现有技术相比,本发明可以通过计算机处理快速得到数据摘要信息,无需人工对原始数据进行查看比对、手动筛选,大大的减少了数据的处理时间,能够提高数据提取的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据提取的方法流程图;
图2示出了本发明实施例提供的一种文本格式数据摘要信息提取的方法流程图;
图3示出了本发明实施例提供的一种图片格式数据摘要信息提取的方法流程图;
图4示出了本发明实施例提供的一种视频格式数据摘要信息提取的方法流程图;
图5示出了本发明实施例提供的一种摘要信息提取评估方法的流程图;
图6示出了本发明实施例提供的一种数据提取的装置的组成框图;
图7示出了本发明实施例提供的另一种数据提取装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决现有技术中人工提取摘要信息效率低下的问题,本发明实施例提供了一种数据提取的方法,如图1所示,该方法包括:
101、对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于石河子大学,未经石河子大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510474190.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





