[发明专利]一种医疗命名实体识别方法、装置和电子设备有效
| 申请号: | 202210125810.4 | 申请日: | 2022-02-10 |
| 公开(公告)号: | CN114169338B | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 安波 | 申请(专利权)人: | 北京智源人工智能研究院 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/117;G06F16/35;G06N3/08 |
| 代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 医疗 命名 实体 识别 方法 装置 电子设备 | ||
本发明公开了一种医疗命名实体识别方法、装置和电子设备。方法包括:利用标注数据集训练得到不同类型的多个命名实体识别NER模型;基于多个所述NER模型,利用主动学习方法从未标注数据中选择待标注数据;利用多个所述NER模型分别对所述待标注数据的类别进行预测;对预测的结果进行融合,得到所述待标注数据的类别。该技术方案实现了使用少量数据达到大量数据相当性能的效果。实际使用数据表明,采用本发明提供的方法,能够在10%的标注数据下,达到全量数据90%左右的性能。因此,本发明的方法很好地满足了医疗场景缺少足够标注信息情况下的信息抽取应用场景的实际需求。
技术领域
本发明涉及医疗数据处理技术领域,尤其涉及一种医疗命名实体识别方法、装置和电子设备。
背景技术
医疗领域的命名实体识别(NER)是构建医学知识图谱、医学大数据的基础,是实现病例智能解析以及医学智能化的重要基础。
目前,医疗NER任务主要应用深度学习技术实现。在深度学习技术的应用过程中,需要大量的已标注数据训练模型。而由于医疗数据的隐私性和敏感性,所以医疗数据非常稀缺,有标注的可供命名实体识别的数据更加稀缺。因此,深度学习技术在医疗NER任务上遇到了很大的瓶颈,无法满足少量标注数据情况下的医疗NER任务。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明一方面提供了一种医疗命名实体识别方法,包括:
利用标注数据集训练得到不同类型的多个命名实体识别NER模型;
基于多个所述NER模型,利用主动学习方法从未标注数据中选择待标注数据;
利用多个所述NER模型分别对所述待标注数据的类别进行预测;
对预测的结果进行融合,得到所述待标注数据的类别。
优选地,所述不同类型的多个命名实体识别NER模型包括:深度学习模型、统计学习模型和/或基于知识的模型。
优选地,所述基于多个所述NER模型,利用主动学习方法从未标注数据中选择待标注数据包括:
利用各NER模型分别对各未标注数据在各类别中的分布进行预测;
计算各未标注数据在各类别中分布的一致性;
根据一致性从所有的未标注数据中确定待标注数据。
优选地,所述计算各未标注数据在各类别中分布的一致性;根据一致性从所有的未标注数据中确定待标注数据,采用如下公式:
式中,为未标注数据,为第m个实体类别,M为实体类别的总量,为第个NER模型,为第个NER模型预测的为第m个类别的概率,为第个NER模型,)为第个NER模型预测的为第m个类别的概率,D为两个分布的KL距离,为最终得到的所有未标注数据中KL距离最大的数据。
优选地,所述对预测的结果进行融合,得到所述待标注数据的类别,采用如下公式:
式中,为未标注数据最终的类别,为NER模型的个数, 为第个NER模型,为第m个实体类别,为第个NER模型预测的为第m个类别的概率, 为第个NER模型的权重, 为可学习参数。
优选地,还包括步骤:
利用得到的类别标注所述待标注数据,并添加到所述标注数据集中,迭代训练多个所述NER模型。
本发明第二方面提供了一种医疗命名实体识别方法,包括:
将数据输入多个命名实体识别NER模型,得到多个识别结果;多个所述NER模型是根据上述的方法训练得到的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210125810.4/2.html,转载请声明来源钻瓜专利网。





