[发明专利]基于Spark的多维健康数据的统计分析方法及系统在审
| 申请号: | 201810121391.0 | 申请日: | 2018-02-07 |
| 公开(公告)号: | CN110120251A | 公开(公告)日: | 2019-08-13 |
| 发明(设计)人: | 许勇 | 申请(专利权)人: | 北京第一视角科技有限公司 |
| 主分类号: | G16H10/00 | 分类号: | G16H10/00;G16H50/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100088 北京市西城区德*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 健康数据 统计分析 数据量 多维 变量筛选 数据文件 分析 预设量 检索 反馈 | ||
本发明提供一种基于Spark的多维健康数据的统计分析方法及系统,从待分析的数据文件中根据检索变量筛选出待分析的健康数据,在待分析的健康数据的数据量大于预设量时,通过Spark模块进行统计分析,接收并显示所述Spark模块反馈的统计分析结果。通过Spark模块对数据量大的健康数据进行统计分析具有计算速度更快、运行所需时间更少、计算结果更为精准的效果。
技术领域
本发明涉及多维医疗数据的统计分析技术领域,具体涉及一种基于Spark的多维健康数据的统计分析方法及系统。
背景技术
近年来医疗信息化发展迅速,而随着测序技术的普及,以基因、蛋白、代谢和微生物等为代表的生物信息数据已成为精准医学研究的基础,它们与临床、文献、人群队列、随访、药物、专利和医疗指南等数据共同构成了医学大数据,其具有海量、高增长、多维、时变、不完整、可信度不同、多源和异构等复杂特性。
而现有技术中对如此庞杂医疗数据进行统计分析时,仅靠统计学和SPSS、MATLAB等工具。这类统计分析技术适用于少量、单一维度情况下的数据统计分析,而在大量多维数据情况下,其明显暴露出效率低、准确性差的缺陷,因此传统的数据统计分析供给应用于医疗大数据中时性能还存在很大的改进空间。
发明内容
本发明要解决的技术问题是采用传统数据统计分析方法对医疗大数据进行处理已经无法适应其对速度和准确性方面的要求,进而提供一种基于Spark的多维健康数据的统计分析方法及系统。
基于上述问题,本发明提供一种基于Spark的多维健康数据的统计分析方法,包括如下步骤:
数据获取步骤:获取待分析的数据文件,接收预设的检索变量;
数据提取步骤:从所述待分析的数据文件中筛选出符合所述检索变量的待分析的健康数据;
统计分析步骤:若所述待分析的健康数据的数据量大于预设量,则将所述待分析的健康数据发送至Spark模块进行统计分析,并接收所述Spark模块反馈的统计分析结果;
结果显示步骤:显示所述统计分析结果。
优选地,上述的基于Spark的多维健康数据的统计分析方法中,在所述统计分析步骤中,还包括:若所述待分析的健康数据的数据量小于或等于所述预设量,则将所述待分析的健康数据发送至由Kubernets系统和TensorFlow系统组成的云计算模块进行统计分析,并接收所述云计算模块反馈的统计分析结果。
优选地,上述的基于Spark的多维健康数据的统计分析方法中,在所述数据获取步骤中:所述检索变量包括多个,不同检索变量用于从不同维度对所述待分析的数据文件进行筛选,得到多维的待分析的健康数据。
基于同一发明构思,本发明还提供一种基于Spark的多维健康数据的统计分析系统,包括基本处理模块和Spark模块,其中:
所述基本处理模块包括数据获取单元、数据提取单元、统计分析单元和结果显示单元,其中:
所述数据获取单元获取待分析的数据文件,接收预设的检索变量;
所述数据提取单元从所述待分析的数据文件中筛选出符合所述检索变量的待分析的健康数据;
所述统计分析单元在所述待分析的健康数据的数据量大于预设量时,将所述待分析的健康数据发送至Spark模块;
所述Spark模块,用于接收所述待分析的健康数据,对所述待分析的健康数据进行统计分析,并将统计分析结果发送至所述统计分析单元;
所述结果显示单元显示所述统计分析结果。
优选地,上述的基于Spark的多维健康数据的统计分析系统中,还包括由Kubernets系统和TensorFlow系统组成的云计算模块:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京第一视角科技有限公司,未经北京第一视角科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810121391.0/2.html,转载请声明来源钻瓜专利网。





