[发明专利]一种xml文件批量自动统计数据的方法在审

申请号：	201910829165.2	申请日：	2019-09-03
公开（公告）号：	CN110532434A	公开（公告）日：	2019-12-03
发明（设计）人：	程永新;林小勇;段文香	申请（专利权）人：	上海新炬网络技术有限公司
主分类号：	G06F16/81	分类号：	G06F16/81;G06F16/832;G06F16/835
代理公司：	31290 上海科律专利代理事务所(特殊普通合伙)	代理人：	袁亚军<国际申请>=<国际公布>=<进入
地址：	201707 上海市青浦区外青***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自动统计数据库自动化操作程序脚本工作效率分类创建统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种xml文件批量自动统计数据的方法,包括以下步骤：步骤S101：规范xml文件的命名和目录的放置；步骤S102：将所述xml文件批量导入数据库，根据所述XML的文件名称分类，创建对应的数据表；步骤S103：执行python导入程序，批量自动把所述xml文件导入数据库对应的表。本发明提供的xml文件批量自动统计数据的方法，每个步骤都按不同时间通过程序脚本自动化操作，减少了人为操作和统计时间，大大提高工作效率。

技术领域

本发明涉及一种统计数据的方法，尤其涉及一种xml文件批量自动统计数据的方法。

背景技术

xml是一种标记数据、定义数据类型，允许用户对自己的标记语言进行定义的源语言,适合互联网的传输。在大数据传输与保存处理，传输的xml文件个数都是成千上万，数据量可达到单个文件上GB级别。管理员时常会对xml文件进行读取与稽查统计，再写出报告结果来得出业务运营问题。通常会用以下两个办法:

(1)人工方式来读取和分析，把单个xml文件转成电子表格，再通过电子表格的函数来时行分析。

(2)通过传统程序来解决，先把XML数据导到内存中，然后再统计、导出统计结果，再继续读取下一个xml分析，直到处理完所有的xml文件。

现有的大规模的xml数据文件传统处理方式会存在以下缺点：

(1)效率低下：首先是人工通过转换xml格式，遇到数据量多的，转换过成时间久且会出错。如果遇到成百上千个xml文件，那将会消耗大量的时间来统计，浪费人力成本。

(2)通过传统程序来处理方式，适用于少量的xml文件，随着数据增多，处理需要花费大量的时间。

(3)需要人为操作：从xml文件的传输到整理到执行程序到结束导入电子表格，都需要人工操作，对操作人员技术要求高。

(4)消耗计算机性能：由于程序读取xml需要保存在内存，而且读取过程需要消耗大量的IO，当数据量一多，计算机的性能将到瓶颈。

(5)长时间读取失败导致回退：如果在读取xml文件时，读取失败导致程序中断，会导致之前保存到内存的数据失效，重启读取也将花费大量时间。