[发明专利]一种基于OCR与命名实体提取技术的临床队列数据协同校验方法有效
申请号: | 201810323020.0 | 申请日: | 2018-04-11 |
公开(公告)号: | CN108597565B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 吕旭东;段会龙;田琪;刘梦舟 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/205;G06F40/151 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 忻明年 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ocr 命名 实体 提取 技术 临床 队列 数据 协同 校验 方法 | ||
本发明公开了一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,包括:步骤1,利用人工录入方式将纸质病历报告表电子化,得到人工录入数据;步骤2,利用OCR将纸质病历报告表电子化,识别得到纸质病历数据;步骤3,利用命名实体提取技术从电子病历中提取得到电子病历数据;步骤4,针对待校验临床队列数据,比对人工录入数据、纸质病历数据和电子病历数据,得到校验结果。本发明提供的基于OCR与命名实体提取技术的临床队列数据协同校验方法,解决现有人工校验方法成本高效率低,数据错误覆盖不全面的问题。
技术领域
本发明涉及临床数据处理技术领域,具体涉及一种基于OCR与命名实体提取技术的临床队列数据协同校验方法。
背景技术
临床队列研究是国际公认的探讨常见重大疾病病因的有效方法,也是研究各种遗传和环境暴露因素与健康结局关系最重要的方法之一。
一方面,由于临床队列研究的样本人群基数大,随访时间长,因此需要收集的数据量通常都很庞大,在数据采集的过程中,研究对象或者数据采集人员等人为因素会不可避免地影响数据质量。另一方面,2016年颁布的《临床试验数据管理工作技术指南》明确指出,数据质量是评价研究结果的基础;在指南中也明确提出临床试验的数据必须是准确的、完整的和可靠的,因此,在实施临床队列研究时,在数据的采集环节保证数据的质量尤为重要。
目前大多数临床队列的数据采集和管理方式都是先通过纸质的CRF(Case ReportForm,病历报告表)收集数据,然后将数据转录到专门的信息管理系统进行统一管理以便于后续的统计分析。有研究表明,在这样的数据采集过程中,各种人为因素(填写人员、录入人员的粗心大意和不规范操作以及研究对象的依从性等)会导致数据出现填写错误、填写遗漏、录入错误和录入遗漏。为了解决这些问题,在现有临床队列研究的实施过程中,在纸质CRF填写之后,可以通过重新问询病人或者与其它数据源(如电子病历(ElectronicMedical Record,EMR)进行核对的方式来找出和纠正填写遗漏和填写错误。
数据录入环节常用的数据校验方法包括双录入、源数据校验和逻辑核查等方法,其中,双录入指的是不同录入人员分别录入同一份表单,通过对两次的输入值进行逐项核对,来纠正数据中的错误项;源数据校验指的是在数据录入后再次观察表单内容对录入数据进行校对;逻辑核查指的是根据生理参数的正常范围对用户提交的数据进行控制和验证。
双录入和源数据校验基本能够解决录入错误和录入遗漏的问题,但双录入需要额外的人力资源,增加人力成本,而源数据校验会增加时间成本,总之费时费力。逻辑核查虽然能够在一定程度上解决录入错误和填写错误,但不能解决录入数据和纸质数据不一致的问题。总的来说,现有的这些措施可以解决部分数据问题,但是都不能全面覆盖,而且需要的成本较高。
发明内容
本发明提供了一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,解决现有人工校验方法成本高效率低,数据错误覆盖不全面的问题。
一种基于OCR与命名实体提取技术的临床队列数据协同校验方法,包括:
步骤1,利用人工录入方式将纸质病历报告表电子化,得到人工录入数据;
步骤2,利用OCR将纸质病历报告表电子化,识别得到纸质病历数据;
步骤3,利用命名实体提取技术从电子病历中提取得到电子病历数据;
步骤4,针对待校验临床队列数据,比对人工录入数据、纸质病历数据和电子病历数据,得到校验结果。
本发明提供的临床队列数据协同校验方法,对人工录入数据、纸质病历数据和电子病历数据进行一致性分析,通过三种数据比对的结果,判断临床队列数据的可靠性。
步骤1中,利用OCR技术解析纸质病历报告表的表单结构,利用机器学习对解析提取的内容进行识别,汇总识别结果,得到纸质病历数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810323020.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:医疗信息共享方法和系统
- 下一篇:基于人脸识别的移动电子病历系统及实现方法