[发明专利]一种改进的应用于医技检查报告的智能纠错方法有效
| 申请号: | 201910841786.2 | 申请日: | 2019-09-06 |
| 公开(公告)号: | CN110705262B | 公开(公告)日: | 2023-08-29 |
| 发明(设计)人: | 李文杰;贾禄帅;王小冬;简刚;唐武斌 | 申请(专利权)人: | 宁波市科技园区明天医网科技有限公司 |
| 主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/247;G16H15/00 |
| 代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 唐迅 |
| 地址: | 315040 浙江省宁波市高新区创苑路80*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种改进的应用于医技检查报告的智能纠错方法,包括词库构建过程、训练过程和智能纠错过程,不仅能够检测常规的拼写错误,另外通过使用训练循环卷积神经网络得到的纠错模型,考虑语序和词语搭配,标记出有问题的词组搭配,并依据拼音词库和词语关联词库,给出一组可替代错误分词的建议词。本发明不仅可以对拼写错误进行检查,而且可以通过训练得到的循环卷积神经网络模型对上下文的词语搭配进行检查;在应用纠错模型过程中,采取不同的策略,当分词被判定为错误时,由拼音词库DIC4和词语关联词库DIC5给出可替代当前分词的建议词,最终实现能够更加准确地对医技检查报告进行智能纠错。 | ||
| 搜索关键词: | 一种 改进 应用于 检查 报告 智能 纠错 方法 | ||
【主权项】:
1.一种改进的应用于医技检查报告的智能纠错方法,其特征在于,包括以下步骤:/n步骤1、词库构建过程:/n1.1、将自定义的医学词典库导入jieba的自定义词典库,采用jieba分词方法对训练样本进行分词,对分词后的语料,经过去重和重编码处理后,生成医技检查报告编码词库DIC1、单词搜索词库DIC2、词组搜索词库DIC3、拼音词库DIC4和词语关联词库DIC5;/n步骤2、通过训练过程获得纠错模型:/n2.1、对分词后的语料依据句子分隔符进行分句,经过乱序和词语替换,产生语序语料和词语搭配语料集,然后依据编码词库DIC1进行数字化编码;/n2.2、将构建好的两个语料集分别送入到循环卷积神经网络中进行训练,获得纠错模型Model1和Model2;/n步骤3、通过训练过程及得到的纠错模型对报告进行智能纠错过程:/n3.1、得到待检测报告后,先对待检测的医技检查报告进行中文分词,以空格为分隔,先通过单词搜索词库DIC2进行搜索,筛选出拼写有问题的词语,并进行标记;/n3.2、然后对分词后的句子按照逗号和结束符号进行分句,用Model1和Model2模型对每个分句都进行检测,判断分句的正误;如果分句被判断为错误,依据词组搜索词库DIC3对分句中的词组进行二次检查,并标注出错误的词语和搭配不当的词组,若分词中含有数字、英文字母或特殊符号,则不需要进行纠错;/n3.3、对于错误的词语,根据拼音词库DIC4和词语关联词库DIC5给出一组可替代错误分词的建议词语;/n3.4、当所有分句都分析完成后,智能纠错结束。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波市科技园区明天医网科技有限公司,未经宁波市科技园区明天医网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910841786.2/,转载请声明来源钻瓜专利网。
- 上一篇:中文文本分词方法及其系统
- 下一篇:一种字符信息的录入校验方法和存储介质





