[发明专利]一种改进的应用于医技检查报告的智能纠错方法有效
| 申请号: | 201910841786.2 | 申请日: | 2019-09-06 |
| 公开(公告)号: | CN110705262B | 公开(公告)日: | 2023-08-29 |
| 发明(设计)人: | 李文杰;贾禄帅;王小冬;简刚;唐武斌 | 申请(专利权)人: | 宁波市科技园区明天医网科技有限公司 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/247;G16H15/00 |
| 代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 唐迅 |
| 地址: | 315040 浙江省宁波市高新区创苑路80*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 改进 应用于 检查 报告 智能 纠错 方法 | ||
1.一种改进的应用于医技检查报告的智能纠错方法,其特征在于,包括以下步骤:
步骤1、词库构建过程:
1.1、将自定义的医学词典库导入jieba的自定义词典库,采用jieba分词方法对训练样本进行分词,对分词后的语料,经过去重和重编码处理后,生成医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5;
步骤2、通过训练过程获得纠错模型:
2.1、对分词后的语料依据句子分隔符进行分句,经过乱序和词语替换,产生语序语料和词语搭配语料集,然后依据编码词库DIC1进行数字化编码;
2.2、将构建好的两个语料集分别送入到循环卷积神经网络中进行训练,获得纠错模型Model1和Model2;
步骤3、通过训练过程及得到的纠错模型对报告进行智能纠错过程:
3.1、得到待检测报告后,先对待检测的医技检查报告进行中文分词,以空格为分隔,先通过单词搜索词库DIC2进行搜索,筛选出拼写有问题的词语,并进行标记;
3.2、然后对分词后的句子按照逗号和结束符号进行分句,用Model1和Model2模型对每个分句都进行检测,判断分句的正误;如果分句被判断为错误,依据词组搜索词库DIC3对分句中的词组进行二次检查,并标注出错误的词语和搭配不当的词组,若分词中含有数字、英文字母或特殊符号,则不需要进行纠错;
3.3、对于错误的词语,根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词语;
3.4、当所有分句都分析完成后,智能纠错结束,
其中通过训练过程获得纠错模型的具体完成步骤如下:
A.首先对医技检查报告语料库进行处理,构建各种所需词库,包括医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5;
B.采用导入了医学词库的jieba分词方法对训练样本进行分词,并依据医技检查报告编码词库DIC1对训练样本进行数字化编码预处理,若样本分词不在医技检查报告词库DIC1中,则编码为“unk”词语对应的编码;
C.将构建好的训练集送入到RCNN中进行训练,获得纠错模型Model1和Model2;
而纠错的具体步骤如下:
a.获得待检测的医技检查报告;
b.经过训练得到纠错模型Model1和Model2后,采用中文分词方法jieba对待检测的医技检查报告进行中文分词,然后依据逗号或中文结束标点进行分句;
b.对分句中的中文单词通过单词搜索词库DIC2进行检查,跳过包含非中文的单词或标点,对不在词库中的中文单词进行标注,认为是错误的单词;
c.使用词组搜索词库DIC3,依次对有问题分句中相邻的中文单词词组进行检查,对不在词组词库中的词组进行标注,认为是错误的单词;
d.对于标注出的错误的单词,根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词;
e.当所有分词都分析完成后,智能报告纠错结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波市科技园区明天医网科技有限公司,未经宁波市科技园区明天医网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910841786.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:中文文本分词方法及其系统
- 下一篇:一种字符信息的录入校验方法和存储介质





