[发明专利]一种医学OCR识别纠错方法在审
| 申请号: | 202310048317.1 | 申请日: | 2023-01-31 |
| 公开(公告)号: | CN116306594A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 许宏伟;杨斌;马婷婷;文治中 | 申请(专利权)人: | 百洋智能科技集团股份有限公司 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/242;G06F40/216;G06F40/289;G06V30/262;G06V30/41;G06V30/18;G06V10/82;G06N3/045 |
| 代理公司: | 北京隆达恒晟知识产权代理有限公司 11899 | 代理人: | 李中强 |
| 地址: | 266000 山东省青*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 医学 ocr 识别 纠错 方法 | ||
1.一种医学OCR识别纠错方法,具体包括以下步骤:
第一步、利用paddle OCR文本识别框架提供的服务器端预训练模型对含有中英文文字的医学图像进行识别,其中识别过程包含三个模块:文本检测、文本方向矫正、文本识别;针对第三个模块采用CRNN识别算法,利用Text Recognition Data Generator工具合成医学生僻字数据集结合现有通用语料,对CRNN算法进行改进,使得paddle OCR更适用于医学场景,完成对输入图像的文本识别;
根据相关医学指南文献、临床医学电子病历、临床医学检查报告等电子文本内容,通过中文分词技术分词得到词频表,用于后续的文本错误词语检测,同时设置医学领域的混淆字典和易错字形似字典;
第二步、对初步识别结果进行文本切分,以标点符号为分隔符得到短文本集合,其中标点符号不包含单双引号、各类型括号;遍历短文本集合,使用分词工具将分词结果中未出现在词频表的列为未登录词,即疑似错词;
第三步、预设一用于纠错的替换字符集,包含形似字词典、混淆词典;将现有的医学电子文本转换为PDF格式,再通过中文OCR得到识别后的结果,与初始电子文本做比对,得到识别错误的词语与真实值,扩充替换字符集;
在构建医学领域的形似字词典和混淆词典时,针对医学使用频率最高的 2000 个汉字,进行单个汉字识别,统计每个汉字识别结果置信度高前五的汉字作为汉字相似度衡量的指标,Con(b/a)和Con(a/b)分别为汉字 a 和 b出现在彼此的形近字候选值中的置信度,这里取平均值作为其训练过程中的汉字相似性计算公式:
Relevance1(a,b)=(Con(b/a)+Con(a/b))/2 (公式一)
此外,为了提高计算的准确性,从形似字词典和混淆词典中调取汉字a,b对应的特征向量a={a1,a2,a3…,ak}和b={a1,a2,a3…,ak},定义Dif i=ai-bi,i∈[1,k],汉字a,b对应的差值特征向量Dif={dif1,dif2,dif3…,difk},汉字a,b之间基于特征向量的字形相似度
Relevance2(a,b)=(k-∑MI=1|Dif i|)/k, i∈[1,k] (公式二)
进一步的,计算基于笔画顺序的字形相似度,其中lengtha,lengthb分别为a和b的笔画顺序字符串的长度,c为a,b的笔画顺序字符串中匹配的字符数,m为匹配字符串中位置发生改变数目,若匹配的字符集在字符串中顺序一致,则m为0,否则为发生改变的位置的数目的一半,当c=0时,Relevance3=0,当c0时, Relevance3(a,b =1/3(c/lengtha+c/lengthb+(c-m)c) (公式三)
基于公式一,公式二和公式三,得到医学领域汉字相似度的最终公式为:
Sim(a,b)= (Relevance1(a,b)+ Relevance2(a,b)+ Relevance3(a,b))/3 (公式四)
第四步、统计学中常用的统计估算编程模型,起初被用于大词汇量连续语音识别,如今已被广泛应用于自然语言处理中的词法分析、句法分析、句法分析、连续拼音输入等各个方面;统计估算编程模型的基本原理是,自然语言被视为一个随机过程,每一个包含于其中的语言单元,如字、词、句、段落和篇章都被视为满足一定概率分布的随机变量,在面对众多候选词时,根据候选词在句子(文章的上下文语境)的合理程度择优选择,完成纠错;
假设文本T=(t1,t2,t3,…ti,…,tk),其中t1,t2,t3,…ti,…,tk是文本中所有候选词组成的序列;
对于候选词ti序列t1,t2,t3,…ti,…,tk构成完整的上下文语境,ti的出现概率是由序列中所有词的出现概率决定,通过文章的上下文语境提供了对候选词ti的严格约束,也存在一定的问题:(1)参数过多,空间维度过大,导致计算量太大;(2)数量较大的上下文语境的约束,对于提供上下文的语料库要求也高;(3)数据的离散情况较为严重;
为解决上述问题,在计算中通常引入马尔科夫假设:任意一个词出现的概率只有它前面N个词有关;假设句子S是由序列t1,t2,t3,…ti,…,tk组成,候选词tk在真实语言环境下出现在句子S中的概率P(tk)可由下面的公式表示:
P(tk)=P(S)=P(t1,t2,t3,…ti,…,tk)=P(t1)* P(t2|t1) *... * P(tk|t1…tk-1)
=∏kP(tk|t1…tk-1) (公式五)
其中,P(S)为句子S出现在语料库中的概率, P(tk|t1…tk-1)表示在上下文条件 t1,t2,t3,…ti,…,tk中,候选词tk出现的概率;
即,候选词tk是否出现,取决于它前面k-1个词出现的概率;
使用大量临床医学电子文本训练以字粒度方式训练语言模型;采用困惑度指标衡量候选词句子中的合理程度,计算公式如下:
PP(T)=P(t1,t2,t3,…ti,…,tk)-1/k (公式六)
其中PP(T)表示困惑度指标,k为样本数量;
第三步生成的形似字候选纠错项集合送入统计估算编程模型,按公式(六)计算各自困惑度,得到得分最低的候选项替换原始文本;
第五步、各个短文本的纠错结果进行合并,长度与初始识别结果文本保持一致,初始识别结果经过长文本切分得到切分位置的坐标,按照各个坐标值对短文本进行拼接恢复至原始长度;
第六步,根据医疗场景,利用医学生僻字合成的数据集结合现有通用语料微调现有OCR模型,使得OCR识别算法更适用于医学文本的识别;通过OCR识别文本图像的PDF版本,根据识别结果与真实文本做对比,构建出用于纠错的替换字符集,共包含混淆字典和形似字典两部分;通过中文分词技术,对未出现在现有词频表中的词语判断为疑似错词,若混淆字典中存在疑似错词将直接完成错词替换,若混淆字典中不存在疑似错词,便经过形似字典,给出疑似错词的候选纠错项作为后续语言模型的输入,让模型做出符合语义逻辑的判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百洋智能科技集团股份有限公司,未经百洋智能科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310048317.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自体胶原及其制备方法
- 下一篇:一种基于多场景的数据交换方法及系统





