[发明专利]一种基于医疗系统爬虫提取数据的方法在审
| 申请号: | 201911104769.7 | 申请日: | 2019-11-08 |
| 公开(公告)号: | CN111078976A | 公开(公告)日: | 2020-04-28 |
| 发明(设计)人: | 马磊;蒋卫丽;陈振华;王雄彬;陈昊昱;龙晨 | 申请(专利权)人: | 昆明理工大学;昆明医科大学第二附属医院 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9532;G16H50/70 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 医疗 系统 爬虫 提取 数据 方法 | ||
本发明涉及一种基于医疗系统爬虫提取数据的方法,属于医学图像文字识别技术领域。本发明首先对医疗系统中的URL进行初始化;再分析URL队列,利用正则表达式用来解析html数据,然后利用json模块来解析json数据;再对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗数据库中;对爬取的病人数据进行判断,对是PDF的文档利用百度文字识别API进行文字识别;再对经过百度文字识别API处理后的PDF文档语料进行分词、文本去噪、关键信息提取再存入到医疗数据库中。本发明解决了医疗数据难提取、提取费时繁琐的问题。
技术领域
本发明涉及一种基于医疗系统爬虫提取数据的方法,属于医学图像文字识别技术领域。
背景技术
随着我国医疗卫生事业的发展,国内医院都陆续建立了(医院信息系统)、PACS(医学影像传输和归档系统)、LIS(检验信息系统)等系统,伴随着这些信息系统的应用,一个长期被忽视的问题逐渐浮出水面,这就是数据提取的问题。现今,数据提取问题已成为限制各种信息系统效能发挥的瓶颈和短板,数据提取的重要性已经成为人们关注的重点;
数据挖掘是从数据库中提出隐含的、有潜在价值的和最终可以理解的模式的非平方过程,是知识发现的关键步骤。医疗数据库中的信息内容异常丰富,可能含有病人的医学影像、有关病理参数、化验与测量结果、诊断记录以及相关的参数依据(年龄、性别、病史、出入院时间)等。医疗数据一般存储于医疗系统,并未有相对应的接口来进行提取,因此对医疗数据的整理是非常复杂且繁琐,需要人工进行手动整理,耗费大量的人力物力资源。但是随着互联网的发展,在庞大的网络信息中,全部用户均可以通过一定的手段来获取想要获取的知识。众所周知,对于不同的数据个体而言,需要摄取的知识是不相同的,该类现象很大程度上增加了目标信息获取的难度,因此网络爬虫这个概念就被提出来,网络爬虫具有较强的专业性,能对众多的Web页面实现有效的查询。网络爬虫执行的起点是简单的Web页面,随后要实现对其他页面进行访问主要依据超链接完成,重复以上的操作,能够对全部的页面进行检索和扫描,从而获取所需信息。爬虫程序能够对网页实现自动获取,该程序采取的实现策略以及运行的效率如何,对搜索结果产生的影响都是显著的,如果选择的爬虫程序是优秀且高效,那么搜索信息能够做到及时和准确。最早的爬虫是Goole爬虫,实现的功能是针对各爬虫组建能够完成各异进程;紧接着百度、搜狐等搜索引擎也应运开始研究爬虫程序,但是这些引擎的爬虫技术都是保密的。爬虫可以根据网站有效的结合计算机提供的算法以及人工完成的辅助进行编辑,可以获得较为完整的相关信息,这是医疗信息库搭建所迫切需要的。随着时代的发展,医疗系统的更新速度很快,针对医疗系统接口的搭建可能需要较长的一个过程且未必对所有的医疗科室适用,但是进行人工整理和收集医疗数据信息是非常繁琐且耗费精力的,本发明正是为了解决这些问题提出了一种基于医疗系统爬虫提取数据的方法。
发明内容
本发明提供了一种基于医疗系统爬虫提取数据的方法,以用于解决医疗数据难提取、提取费时繁琐的问题。
本发明的技术方案是:一种基于医疗系统爬虫提取数据的方法,首先对医疗系统中的URL进行初始化;再分析URL队列,利用正则表达式用来解析html数据,然后利用json模块来解析json数据;再对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗数据库中;对爬取的病人数据进行判断,分析是不是PDF文档,如果是PDF文档,然后利用百度文字识别API进行文字识别,百度文字识别API识别后能将图片数据转化为文字数据;如果不是的话,就把爬取到的数据存储到医疗数据库中;再对经过百度文字识别API处理后的PDF文档语料进行分词、文本去噪、关键信息提取再存入到医疗数据库中。
进一步地,所述基于医疗系统爬虫提取数据的方法的具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学;昆明医科大学第二附属医院,未经昆明理工大学;昆明医科大学第二附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911104769.7/2.html,转载请声明来源钻瓜专利网。





