[发明专利]基于预训练模型和微调技术的医疗文本命名实体识别方法在审
申请号: | 201910520186.6 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110348008A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 陈涛;杨开漠 | 申请(专利权)人: | 五邑大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06N3/04;G16H10/00 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吴伟文 |
地址: | 529020 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练模型 命名实体 文本 微调 卷积神经网络 语义信息 医疗 堆叠 捕获 神经网络模型 并行计算 电子病历 非结构化 模型训练 医疗领域 语义表示 自动识别 迁移 | ||
本发明提供一种基于预训练模型和微调技术的医疗文本命名实体识别方法,本发明首先利用大规模非结构化的电子病历等医疗文本对BERT预训练模型进行预训练,以训练出包含文本中语义表示信息的预训练模型。利用堆叠扩张卷积神经网络对所产生的预训练模型进行微调,以获得能够进行医疗领域命名实体自动识别的深度神经网络模型。本发明提供的预训练模型能够更为准确的捕获文本中的语义信息,能够更有效的迁移到特定的任务中,提高模型进行命名实体识别的准确性;本发明将堆叠扩张卷积神经网络与预训练模型结合以对模型进行微调,最终进行医疗文本命名实体的识别,不仅能够很好的捕获文本中的语义信息,而且能够进行并行计算,以提高模型训练速度。
技术领域
本发明涉及数据挖掘技术领域,尤其是一种基于预训练模型和微调技术的医疗文本命名实体识别方法。
背景技术
临床医学是研究疾病的病因、诊断、治疗和预后,提高临床治疗水平,促进人体健康的科学。临床医学中的电子病历等医疗文本数据对于医学领域研究具有巨大的价值。随着互联网的普及,出现了越来越多的在线临床医疗社区以及临床医疗咨询网站。这些在线临床医疗网站也产生了丰富的医疗文本数据。这些医疗文本中有大量真实的个人案例,潜藏着丰富的临床医疗价值。但是这些临床医疗文本大多处于一种非结构化的状态。为充分挖掘其中的价值,并为接下来临床医疗问答机器人、临床医疗决策支持系统等应用打好基础工作。如何采用更加有效合理的方法,准确地挖掘出医疗文本数据中所存在的潜在价值,已经是未来信息科技发展的趋势,也是医疗文本数据挖掘技术产生的背景。
医疗机构通过构建和组织对医疗文本数据进行文本分析的文本数据分析团队,来挖掘临床医学中产生的医疗文本数据中所包含的有用信息,尤其是医疗文本中包含的命名实体信息,为提高医疗机构之间竞争中获取更大的商业利益。同时,国家也将医疗文本数据挖掘作为国家战略布局的重要组成成分,以提高国内医疗水平。
命名实体识别,又名实体识别、实体抽取,是自然语言处理领域信息抽取任务中的一项子任务,旨在通过利用机器学习相关方法从文本语料中自动识别并抽取出文本中的专有名词并加以分类。常见的命名实体有:人名、地名、机构名、特定实体等。命名实体识别是自然语言处理中一个相当重要的基础任务,是许多自然语言处理的高层应用,如搜索引擎、问答系统、推荐系统、翻译系统等的一个基础技术。随着信息技术的不断发展与信息系统应用范围的不断深化,对文本数据进行自动化命名实体识别是提高企业生产效率和竞争优势的一种重要手段及措施。
文本命名实体识别的分析方法可分为基于规则的命名实体识别方法、基于词典的命名实体识别方法、基于传统机器学习的命名实体识别方法和基于深度学习方法的命名实体识别方法。
基于规则的命名实体识别方法是利用模式匹配技术根据预先定义好的规则模板对文本进行匹配识别出命名实体。规则模板一般是根据词法、句法、语法等语言学知识来进行设计的。该方法因为所采用的规则一般是由专家编写的,所以具有较高的准确性。但是因为专家知识具有不可复用性,导致该方法存在人工成本非常高等缺点。
基于词典的命名实体识别方法是通过构建词典并根据词典对文本中的内容进行匹配的命名实体识别方法。传统的命名实体类别,如人名、地名、机构名等的命名实体数量巨大,很难全部收录在词典中,而且部分实体名称变化频繁,并没有严格的规律可循,因此单纯的基于词典匹配的命名实体识别通常无法满足实际应用的需求。
基于传统机器学习的命名实体识别方法利用统计学和概率学的知识,针对特定的命名实体识别问题设计各种复杂的统计模型,利用大量的标记数据进行有监督的学习调整模型的参数,进而使用训练好的模型来进行命名实体识别。相比前两种方法,此类方法不需要很强的语言学知识,灵活性高,适应性强,但命名实体识别的效果依赖标注数据的数量和质量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910520186.6/2.html,转载请声明来源钻瓜专利网。