[发明专利]分词和词性识别方法、装置及电子病历的分析方法、装置有效
申请号: | 202010067197.6 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111274806B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 何国平;王旭英;甄化春;郭亚强;尹伟东;董驰 | 申请(专利权)人: | 医惠科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/253;G06F40/237;G06F16/903 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郄晨芳 |
地址: | 310053 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 词性 识别 方法 装置 电子 病历 分析 | ||
本发明公开了一种分词和词性识别方法、装置,方法包括:根据目标电子病历获取待识别短语语料;利用预先设置的电子病历后结构化系统对待识别短语语料进行切分,得到目标词语;利用预先设置的歧义词库结合双向最大匹配算法确定出目标词语中的歧义词,并利用条件随机场算法为各歧义词设置目标词性标注;利用预先设置的医学词性词库结合双向最大匹配算法为目标词语中的非歧义词设置目标词性标注。相比于现有技术,本发明能够在提高歧义词的识别准确率的同时提高总体的词性识别的准确度和处理效率。本发明还提供了一种电子病历的分析方法、装置,有益效果如上述。
技术领域
本发明涉及自然语言技术领域,特别涉及一种分词和词性识别方法、装置及一种电子病历的分析方法、装置。
背景技术
随着信息化建设的快速发展,数据呈现爆发式增长,特别是在医院等医疗机构,每天会产生大量数据及医疗记录,且很多重要数据都是以非结构化文本形式存储。对于医院中大量的人口基数所产生的医疗数据,必须有效地进行信息化、结构化,否则将会丢失其中宝贵的信息资源。那么该如何剖析、挖掘病历,转化为能被利用、有价值的“宝藏”呢?目前,随着大数据及人工智能迅速发展,通过医学语料标注及自然语言技术处理,将非结构化文本转化为结构化数据,并可将数据应用于辅助临床决策、风险预测、科研分析等任务中。
其中,在将电子病历中的短语进行分词和词性识别的过程中,现有技术一般是利用HMM(隐马尔可夫)算法结合医学词性词库为短语中的各目标词语设置对应的目标词性标注,或者采用纯粹CRF++模型以及深度学习模型BiLSTM+CRF的常用深度学习实体识别框架为短语中的各目标词语设置对应的目标词性标注。但是,在实际操作中,由于根据短语切分出的目标词语在不同的语境中可能是不同的词性,即,目标词语可能是歧义词。对此,现有技术中,通过CRF++算法或者BiLSTM+CRF算法,对切分出的每一个目标词语进行计算,计算出各目标词语对应的可能性较大的词性。但是这种方法中,不仅需要对所有的目标词语进行计算,以确定其目标词性,并且受到目标词语所在语境的变化,确定出的目标词性的准确性会受到较大影响;同时在训练语料多,标注量大的情况下,整体模型的训练迭代速度和模型预测速度都受到较大的影响。传统的纯粹基于医学词性词库利用双向最大匹配算法结合HMM的方法进行医学术语切分和词性识别的方法(如Jieba,NLPIR等)无法满足对于歧义词的识别,无法满足医疗领域对歧义词识别的需求。
因此,如何提高词性识别的准确度和处理效率,是本领域技术人员目前需要解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种分词和词性识别方法,能够提高词性识别的准确度和处理效率;本发明的另一核心是提供一种分词和词性识别装置及一种电子病历的分析方法、装置,均具有上述有益效果。
为解决上述技术问题,本发明提供一种分词和词性识别方法,包括:
根据目标电子病历获取待识别短语语料;
利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语;
利用预先设置的歧义词库结合双向最大匹配算法确定出所述目标词语中的歧义词,并利用条件随机场算法为各所述歧义词设置目标词性标注;
利用预先设置的医学词性词库结合双向最大匹配算法为所述目标词语中的非歧义词设置目标词性标注;
其中,所述歧义词库的设置过程包括:
通过bert预训练词向量模型计算各词语在训练短语语料中的词向量,并计算同一个词语在不同的所述训练短语语料中的相似度;
根据投票机制无监督筛选出相似度低于预设阈值的词语,并设置所述歧义词库。
优选地,所述利用预先设置的电子病历后结构化系统对所述待识别短语语料进行切分,得到目标词语的过程,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医惠科技有限公司,未经医惠科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010067197.6/2.html,转载请声明来源钻瓜专利网。