[发明专利]一种数据提取转换方法、系统、存储介质及电子设备在审
| 申请号: | 201911201132.X | 申请日: | 2019-11-29 |
| 公开(公告)号: | CN111046632A | 公开(公告)日: | 2020-04-21 |
| 发明(设计)人: | 王海波;杨谋军 | 申请(专利权)人: | 智器云南京信息科技有限公司 |
| 主分类号: | G06F40/151 | 分类号: | G06F40/151 |
| 代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 杨用玲 |
| 地址: | 210022 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 提取 转换 方法 系统 存储 介质 电子设备 | ||
本发明提供了一种数据提取转换方法、系统、存储介质及电子设备,其方法包括:读取表格文件的表头名称和对应的样例数据;根据同义词映射表对所述表头名称进行标准化得到标准表头名称;分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段;当所述标准表头名称与对应的样例数据的目标类别字段为同一属性,则生成带属性的标准化表头;对所述标准化表头进行行为分析,识别对应的行为类别;根据所述行为类别生成相应的匹配模型。本发明将表头数据做标准化和属性的匹配,可以在模型匹配的过程中减少大量的工作。
技术领域
本发明涉及计算机数据处理领域,尤指一种数据提取转换方法、系统、存储介质及电子设备。
背景技术
在数据治理中,数据的来源是多样的,表格数据文件是其中的一种常见类型。
在表格数据文件的处理中,由于文件内包含的内容不同,在将其转化为实体和关系模型时,对每种数据文件往往需要做多次配置,而数据文件的类型繁多,配置的工作量巨大。
发明内容
本发明的目的是提供一种数据提取转换方法、系统、存储介质及电子设备,实现将表头数据做标准化和属性的匹配,可以在模型匹配的过程中减少大量的工作。
本发明提供的技术方案如下:
本发明提供一种数据提取转换方法,包括:
读取表格文件的表头名称和对应的样例数据;
根据同义词映射表对所述表头名称进行标准化得到标准表头名称;
分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段;
当所述标准表头名称与对应的样例数据的目标类别字段为同一属性,则生成带属性的标准化表头;
对所述标准化表头进行行为分析,识别对应的行为类别;
根据所述行为类别生成相应的匹配模型。
进一步的,读取表格文件的表头名称和对应的样例数据之前还包括:
获取表头名称以及对应的同义表头名称;
根据所述表头名称和同义表头名称生成同义词映射表,选取其中任意一个表头名称作为标准表头名称。
进一步的,读取表格文件的表头名称和对应的样例数据之前还包括:
分析属于同一类别字段的样例数据,得出各类别字段的类别特征,根据所述类别特征生成类别字段特征表;
识别所述样例数据的类别字段具体包括:
将所述数据特征与所述类别字段特征表中的类别特征进行匹配,匹配相符则为所述样例数据的目标类别字段。
进一步的,分析各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段之后还包括:
当所述标准表头名称与对应的样例数据的目标类别字段非同一属性,则提取表头名称和对应的样例数据并发送至终端设备。
本发明还提供一种数据提取转换系统,包括:
数据读取模块,读取表格文件的表头名称和对应的样例数据;
标准化模块,根据同义词映射表对所述数据读取模块得到的所述表头名称进行标准化得到标准表头名称;
字段识别模块,分析所述数据读取模块得到的各表头名称下对应的样例数据的数据特征,识别所述样例数据的目标类别字段;
表头生成模块,当所述标准化模块得到的所述标准表头名称与所述字段识别模块得到的对应的样例数据的目标类别字段为同一属性,则生成带属性的标准化表头;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智器云南京信息科技有限公司,未经智器云南京信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911201132.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





