[发明专利]多格式混合数据的分类、拼接系统及方法有效
| 申请号: | 201911319257.2 | 申请日: | 2019-12-19 |
| 公开(公告)号: | CN111143297B | 公开(公告)日: | 2023-05-19 |
| 发明(设计)人: | 吴非;陆欢旺;徐剑刚 | 申请(专利权)人: | 上海三稻智能科技有限公司 |
| 主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/172;G06F16/178;G06Q50/26 |
| 代理公司: | 北京维正专利代理有限公司 11508 | 代理人: | 谢绪宁;薛赟 |
| 地址: | 200040 上海市静安区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 格式 混合 数据 分类 拼接 系统 方法 | ||
1.多格式混合数据的分类、拼接系统,其特征在于,包括:
原始数据存储单元(1),用于存储待处理的多格式批量数据文件,其中所述数据文件按照数据属性命名;
数据文件分类单元(2),根据所述数据文件的格式后缀,对原始数据存储单元(1)中待处理的多格式批量数据文件按格式进行分类;
数据文件融合单元(3),根据所述数据文件的类型,融合经数据文件分类单元(2)分类后的具有相同类型条件的各格式数据文件;包括:数据结构化处理单元(31),分别对分类后的数据文件进行结构化处理,以期使各数据文件生成可结构化存储的中间文件;数据内容规则模块(32),预先设定有多种类型标准模型,并分配有对应的类型库(320),按照类型标准模型对数据结构化处理单元(31)生成的各中间文件进行分类别存储;
数据输出单元(4),根据所述数据文件的属性,从数据文件融合单元(3)融合后的数据文件中输出具有相同属性的数据文件。
2.根据权利要求1所述的多格式混合数据的分类、拼接系统,其特征在于,还包括数据获取单元(10),所述数据获取单元(10)位于所述原始数据存储单元(1)与所述数据文件分类单元(2)之间,用于从所述原始数据存储单元(1)获取待处理的多格式批量数据文件,并发送至所述数据文件分类单元(2)。
3.根据权利要求1所述的多格式混合数据的分类、拼接系统,其特征在于,所述数据文件融合单元(3)还包括不合规数据文件库(330),所述不合规数据文件库(330)用于存储剔除的不合规数据文件。
4.根据权利要求1所述的多格式混合数据的分类、拼接系统,其特征在于,所述数据文件融合单元(3)还包括数据分类记录单元(34)与所述数据内容规则模块(32)连接,所述数据分类记录单元(34)用于对所述数据内容规则模块(32)生成的类型库(320)进行记录。
5.根据权利要求1所述的多格式混合数据的分类、拼接系统,其特征在于,还包括数据存储规则单元(5),所述数据存储规则单元(5)与所述数据输出单元(4)连接,预先设定有最终所需输出数据文件的标准结构。
6.多格式混合数据的分类、拼接方法,其特征在于,包括以下步骤:
S1:数据录入,将待处理的多格式批量数据文件按照特定的数据属性命名后存储至原始数据存储单元(1);
S2:获取数据,从原始数据存储单元(1)获取待处理的多格式批量数据文件;
S3:格式分类,根据所述数据文件的格式后缀将待处理的多格式批量数据文件按格式进行分类;
S4:数据融合:将经过格式分类后的数据进行解析,将需要的字段进行清洗、分类、整理融合成一份特定格式的数据,然后输出融合后的数据,S4包括:
S41:分别对分类后的数据文件进行结构化处理,以期使各数据文件生成可结构化存储的中间文件;
S42:按照预先设定有标准模型,对结构化处理后的中间文件进行清洗、分类,存储至对应的类型库(320)中;
S43:按照标准结构,从各类型库(320)中抓取相同属性的数据文件整理融合后输出。
7.根据权利要求6所述的多格式混合数据的分类、拼接方法,其特征在于,S2具体为:所述数据获取单元(10)依次扫描所述原始数据存储单元(1)中的待处理的多格式批量数据文件,并将其推送至所述数据文件分类单元(2)。
8.根据权利要求6所述的多格式混合数据的分类、拼接方法,其特征在于,S4还包括S44:将与标准模型不匹配的不合规数据剔除至不合规数据文件库(330),不合规数据文件库(330)中的数据通过人工归类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海三稻智能科技有限公司,未经上海三稻智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911319257.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





