[发明专利]一种改进的应用于医技检查报告的智能纠错方法有效
| 申请号: | 201910841786.2 | 申请日: | 2019-09-06 |
| 公开(公告)号: | CN110705262B | 公开(公告)日: | 2023-08-29 |
| 发明(设计)人: | 李文杰;贾禄帅;王小冬;简刚;唐武斌 | 申请(专利权)人: | 宁波市科技园区明天医网科技有限公司 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/247;G16H15/00 |
| 代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 唐迅 |
| 地址: | 315040 浙江省宁波市高新区创苑路80*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 改进 应用于 检查 报告 智能 纠错 方法 | ||
本发明公开了一种改进的应用于医技检查报告的智能纠错方法,包括词库构建过程、训练过程和智能纠错过程,不仅能够检测常规的拼写错误,另外通过使用训练循环卷积神经网络得到的纠错模型,考虑语序和词语搭配,标记出有问题的词组搭配,并依据拼音词库和词语关联词库,给出一组可替代错误分词的建议词。本发明不仅可以对拼写错误进行检查,而且可以通过训练得到的循环卷积神经网络模型对上下文的词语搭配进行检查;在应用纠错模型过程中,采取不同的策略,当分词被判定为错误时,由拼音词库DIC4和词语关联词库DIC5给出可替代当前分词的建议词,最终实现能够更加准确地对医技检查报告进行智能纠错。
技术领域
本发明涉及一种纠错的技术领域,特别是一种改进的应用于医技检查报告的智能纠错方法。
背景技术
当今医院逐渐向信息电子化方向发展,医技检查报告也在由纸张化向电子化方向过渡,但是随之带来了报告中拼写错误检查的问题。不同地区、医院,报告系统中结构化模板的存在着较大差异,大多数报告医生还需要手动大量输入检查报告内容。对报告内容的准确性进行快速分析检测成为了一个亟待解决的问题。
常用的解决方法是对输入信息进行分词,查看分词是否在词典中出现,如果没有出现,则认为录入信息错误,然后对信息进行纠错。该技术的存在的两个主要缺点是:(1)查寻错误分词时,仅仅针对可能的拼写错误进行了检查,没有充分考虑输入文本的上下文语义信息;(2)提供的纠错文字只包含了与错误分词的读音相同或相近的词语,没有考虑上下文词语的搭配。
发明内容
本发明的目的是为了解决上述现有技术的不足而提供一种不仅能够检测常规的拼写错误,而且通过利用训练得到的循环卷积神经网络模型充分联系上下文语义信息,并结合恰当的纠错策略对获得的医技检查报告的一种改进的应用于医技检查报告的智能纠错方法。
为了实现上述目的,本发明所设计的一种改进的应用于医技检查报告的智能纠错方法,包括以下步骤:
步骤1、词库构建过程:
1.1、将自定义的医学词典库导入jieba的自定义词典库,采用jieba分词方法对训练样本进行分词,对分词后的语料,经过去重和重编码处理后,生成医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5;
步骤2、通过训练过程获得纠错模型:
2.1、对分词后的语料依据句子分隔符进行分句,经过乱序和词语替换,产生语序语料和词语搭配语料集,然后依据编码词库DIC1进行数字化编码;
2.2、将构建好的两个语料集分别送入到循环卷积神经网络中进行训练,获得纠错模型Model1和Model2;
步骤3、通过训练过程及得到的纠错模型对报告进行智能纠错过程:
3.1、得到待检测报告后,先对待检测的医技检查报告进行中文分词,以空格为分隔,先通过单词搜索词库DIC2进行搜索,筛选出拼写有问题的词语,并进行标记;
3.2、然后对分词后的句子按照逗号和结束符号进行分句,用Model1和Model2模型对每个分句都进行检测,判断分句的正误;如果分句被判断为错误,依据词组搜索词库DIC3对分句中的词组进行二次检查,并标注出错误的词语和搭配不当的词组,若分词中含有数字、英文字母或特殊符号,则不需要进行纠错;
3.3、对于错误的词语,根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词语;
3.4、当所有分句都分析完成后,智能纠错结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波市科技园区明天医网科技有限公司,未经宁波市科技园区明天医网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910841786.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中文文本分词方法及其系统
- 下一篇:一种字符信息的录入校验方法和存储介质





