[发明专利]基于深度学习的基因检测报告信息识别方法、系统及设备在审
| 申请号: | 202310251482.7 | 申请日: | 2023-03-15 |
| 公开(公告)号: | CN116311303A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 康玉;徐丛剑;陈敏欣;吴志勇;郜意;胥婧;王辉;郁培基 | 申请(专利权)人: | 复旦大学附属妇产科医院 |
| 主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/19;G06N20/00 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 倪静 |
| 地址: | 200011 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 基因 检测 报告 信息 识别 方法 系统 设备 | ||
本发明提供一种基于深度学习的基因检测报告信息识别方法、系统及设备,包括:获取基因检测报告并处理为目标图片格式文件;通过OCR文字识别技术提取目标图片格式文件中每个页面的文本信息数据,对其进行基因测序信息识别以得到包含基因测序信息的基因测序信息页;对其进行表格提取,并对提取到的所有表格进行分类识别以得到包含基因测序信息的基因测序信息表格;对其进行表头识别,根据预设标准表头信息在基因测序信息表格中提取相关基因测序信息并进行结构化处理,以得到基因测序信息的结构化内容。本申请使用人工智能技术以获取遗传性肿瘤的基因检测报告的信息结构化和规范化格式输出,减少临床医生负担以及知识背景差异导致的信息理解偏差。
技术领域
本申请涉及医疗数据处理技术领域,特别是涉及一种基于深度学习的基因检测报告信息识别方法、系统及设备。
背景技术
随着二代测序(next-generation sequencing)技术的发展,遗传因素在肿瘤中的重要作用逐渐被发现。因为遗传性肿瘤具有相对独特的遗传背景和生物学特征,其临床治疗方式和预防措施都有别于散发性肿瘤,基因检测在此过程中发挥着至关重要的作用。
而在实际的临床诊疗过程中,基因检测报告的信息解读对缺乏遗传学专业背景知识的临床医生提出了严峻的挑战。临床医生拿到报告后往往需要对纷繁的信息进行甄别与筛选,甚至重走部分解读流程,使整个过程变得费时费力。生物医学领域的基因检测报告,来源于多家检测公司,由于各报告的内容版式、检测目的不尽相同,所以对基因检测报告信息的识别属于复杂场景的结构化。
由于检测报告遗传信息提取是一种复杂版面信息的提取,而现有基于单一的光学字符识别(OCR)方法只能解决部分文字识别问题,不能精确的结构化检测报告中基因相关信息。
因此亟需一种方法能将隐藏在检测报告内对临床决策具有重要指导意义的遗传信息提炼出来,并识别出胚系基因变异的类型,辅助缺乏遗传背景的临床医生做出临床决策。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于深度学习的基因检测报告信息识别方法、系统及设备,用于解决现有技术中无法精确结构化基因检测报告中的基因测序信息等技术问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种基于深度学习的基因检测报告信息识别方法,所述方法包括:获取基因检测报告并处理为目标图片格式文件;通过OCR文字识别技术提取所述目标图片格式文件中每个页面的文本信息数据;对所述文本信息数据进行基因测序信息识别以得到包含基因测序信息的基因测序信息页;对所述基因测序信息页进行表格提取,并对提取到的所有表格进行分类识别以得到包含基因测序信息的基因测序信息表格;对所述基因测序信息表格进行表头识别,根据预设标准表头信息在所述基因测序信息表格中提取相关基因测序信息并进行结构化处理,以得到基因测序信息的结构化内容。
于本申请的第一方面的一些实施例中,所述基因检测报告的文件格式包括:PDF格式或图片格式;所述获取基因检测报告并处理为目标图片格式,具体包括:当基因检测报告为PDF格式文件,则将其通过格式转换为目标图片格式文件,以将PDF格式文件逐页输出为页面图片集合;其中,所述将PDF格式文件逐页输出为页面图片集合具体为:通过java语言编程中的ApachePDFBox开源工具或通过python语言编程中的PyMuPDF库实现;当基因检测报告为原始图片格式文件,则将其通过预处理为目标图片格式文件;其中,所述预处理包括旋转校正、弯曲校正;将原始图片格式文件通过预处理转换为目标图片格式文件具体为:通过文档校正算法DocTR实现。
于本申请的第一方面的一些实施例中,所述通过OCR文字识别技术提取所述目标图片格式文件中每个页面的文本信息数据,包括:利用文本检测模型识别所述目标图片格式文件中每个页面的文本行区域以得到文本行图像;利用文字识别模型对所述文本行图像进行识别以得到对应的文本信息数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学附属妇产科医院,未经复旦大学附属妇产科医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310251482.7/2.html,转载请声明来源钻瓜专利网。





