[发明专利]基于BERT模型的医学应用模型训练方法及装置在审
申请号: | 202011159163.6 | 申请日: | 2020-10-26 |
公开(公告)号: | CN112347773A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 刘静;周永杰;王则远 | 申请(专利权)人: | 北京诺道认知医学科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
地址: | 100161 北京市丰台区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 模型 医学 应用 训练 方法 装置 | ||
本发明实施例提供的一种基于BERT模型的医学应用模型训练方法及装置,该方法包括:获取循证医学训练样本;对所述循证医学训练样本进行实体词汇屏蔽,得到MLM训练样本;利用所述MLM训练样本对BERT模型进行MLM训练,得到PICO‑BERT模型;其中,所述实体词汇对应于循证医学中具有实际意义的实体;利用屏蔽实体词汇得到的MLM训练样本进行MLM训练,得到PICO‑BERT模型,从而增强模型的整体语义表征能力,使得训练的PICO‑BERT模型语义理解能力更强,对特定领域复杂场景的自然语言问题处理能力更强,能够更好地在医学领域适用,提高医学领域特定研究场景下的自然语言的理解能力。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于BERT模型的医学应用模型训练方法及装置。
背景技术
在当今自然语言处理领域,预训练语言模型开创了研究的新范式,刷新了多项自然语言处理任务的最好水平。预训练语言模型即先基于大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成文本分类、序列标注、机器翻译、阅读理解等下游NLP任务。
预训练语言模型BERT,引入了MLM(Masked Language Model)及NSP(NextSentence Prediction,NSP)两个预训练任务,并在更大规模语料上进行预训练,在11项自然语言理解任务上刷新了最好指标。为了保证BERT模型的通用性,BERT所基于的大规模语料覆盖各个知识领域,基于这样的语料训练出来的预训练语言模型可用于解决不同领域的自然语言问题,但也会导致用这样语料训练出来的预训练语言模型在一些专业领域上的表现一般,无法适应性的解决专业领域的自然语言问题。
目前的预训练语言模型虽然在一般通用领域内表现较好,但由于其基于的大规模语料并非针对某一特定领域,所以目前常用的预训练语言模型无法很好的解决专业领域内的自然语言处理问题。在医学领域,这一缺点尤为严重,因为医学领域专业性极强,并且在医学领域使用深度学习模型的容错程度更低,所以目前常用的预训练语言模型如BERT等,在医学领域的适用性不好,无法解决医学领域某些特定研究场景下的自然语言问题。
因此,如何提供一种模型方案,能够更好地在医学领域适用,提高医学领域特定研究场景下的自然语言的理解能力,是本领域技术人员亟待解决的技术问题。
发明内容
本发明实施例提供一种基于BERT模型的医学应用模型训练方法及装置,能够更好地在医学领域适用,提高医学领域特定研究场景下的自然语言的理解能力。
本发明实施例提供一种基于BERT模型的医学应用模型训练方法,包括:
获取循证医学训练样本;
对所述循证医学训练样本进行实体词汇屏蔽,得到MLM训练样本;
利用所述MLM训练样本对BERT模型进行MLM训练,得到PICO-BERT模型;
其中,所述实体词汇对应于循证医学中具有实际意义的实体。
进一步地,所述获取循证医学训练样本包括:
获取医学文献;
在所述医学文献中提取PICO实体;所述PICO实体包括:问题的对象、干预措施、备选措施、结果;
将每篇医学文献中的PICO实体确定为一条循证医学训练样本。
进一步地,所述对所述循证医学训练样本进行实体词汇屏蔽,得到MLM训练样本包括:
对所述循证医学训练样本进行分词,得到分词结果;
将所述分词结果与PICO实体进行对齐,得到对齐结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诺道认知医学科技有限公司,未经北京诺道认知医学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011159163.6/2.html,转载请声明来源钻瓜专利网。