[发明专利]一种医疗病理报告图片的文本结构化处理系统和方法在审
| 申请号: | 202011029211.X | 申请日: | 2020-09-27 |
| 公开(公告)号: | CN112185520A | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 骆佳俊;魏博;马素芬;许永超;李力行;凌少平 | 申请(专利权)人: | 志诺维思(北京)基因科技有限公司 |
| 主分类号: | G16H30/20 | 分类号: | G16H30/20;G06F16/35;G06F40/232;G06F40/242;G06F40/295;G06K9/20;G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 荣颖佳 |
| 地址: | 102200 北京市昌平区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 医疗 病理 报告 图片 文本 结构 处理 系统 方法 | ||
1.一种医疗病理报告图片的文本结构化处理系统,其特征在于,包括:
文本识别模块,用于将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;
文本切割模块,用于将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;
字典匹配模块,用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;
模型预测模块,用于利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;
策略融合模块,用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;
数据封装模块,用于对所述医疗指标名实体和所述结构化文本进行数据封装;
策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。
2.根据权利要求1所述的系统,其特征在于,所述文本识别模块包括:
读取单元,用于读取医疗病理报告图片;
预处理单元,用于对所述医疗病理报告图片按照预设大小进行归一化处理;
检测单元,用于利用连接文本提议网络模型对归一化处理后的医疗病理报告图片进行小尺度文本检测,预测每个小尺度文本在竖直方向上的位置,并利用循环神经网络模型将检测出的小尺度文本进行连接,得到多个宽度为预设宽度的文本碎片框;
调整单元,用于依据各个文本碎片框的属性得分和图像尺寸判断每个文本碎片框与临近文本碎片框是否属于同一目标文本检测框,若是则将每个文本碎片框与临近文本碎片框进行合并,进而从医疗病理报告图片中获取多个文本检测区域;
识别单元,用于利用密集连接卷积网络与联结主义时间分类器的融合模型对每个文本检测区域进行文字识别;
纠错单元,用于对识别出的字词进行常识性纠错处理和业务逻辑纠错处理,得到病理文本。
3.根据权利要求2所述的系统,其特征在于,所述检测单元还用于:将待检测的目标区域的四个角标注出各自的二维坐标,将所述二维坐标合并为一个标记框向量,将每个标记框拆分为预设宽度的矩形框,基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集,以所述矩形框坐标集作为模型训练目标值进行模型训练,得到所述连接文本提议网络模型。
4.根据权利要求2所述的系统,其特征在于,所述纠错单元具体用于:将识别出的字词匹配人工字典进行常识性纠错处理,通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度,确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词,比较识别出的专业词汇和至少一个同义词的余弦相似度,从至少一个同义词中确定目标匹配词,并将识别出的专业词汇替换为所述目标匹配词。
5.根据权利要求1所述的系统,其特征在于,所述模型预测模块还用于:针对特定癌种的病理诊断数据集,根据BIOES标签体系和病理业务知识进行人工标注,将标注数据集按照8:1:1的比例分解为训练集、验证集和测试集,通过搭建词嵌入层、神经网络BiLSTM层和CRF层来构建命名实体识别模型,在训练集和验证集上对所述命名实体识别模型进行训练,最后利用测试集对训练的所述命名实体识别模型进行测试。
6.根据权利要求1所述的系统,其特征在于,所述策略融合模块具体用于:比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最长的医疗指标名实体数据结构;或者比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最短的医疗指标名实体数据结构。
7.根据权利要求1所述的系统,其特征在于,所述策略归一化模块具体用于:计算封装结果中的病理词汇与同义词词汇表中的词汇的文本相似度,选取相似度最大的同义词来替换该病理词汇,以对封装结果进行策略归一化处理,并根据业务逻辑进行三层推理,得到医疗病理报告图片的结构化文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于志诺维思(北京)基因科技有限公司,未经志诺维思(北京)基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011029211.X/1.html,转载请声明来源钻瓜专利网。





