[发明专利]一种基于多任务学习的肠癌诊断电子病历属性值抽取方法有效
申请号: | 202010429765.2 | 申请日: | 2020-05-20 |
公开(公告)号: | CN111666762B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 杜明;周军锋;徐波;刘国华;左彦飞;庞敏敏;张弘;王文坤;王璿 | 申请(专利权)人: | 东华大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G16H10/60;G06N20/20;G06N3/0442;G06N3/045 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 徐俊 |
地址: | 201600 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 肠癌 诊断 电子 病历 属性 抽取 方法 | ||
本发明公开了基于多任务学习的肠癌诊断电子病历属性值抽取方法,具体为一种端到端的神经网络模型从文本的多个实例中提取属性值。首先,对于每个实例使用预训练的词嵌入来更好地初始化神经网络模型中的参数。其次,使用领域语料库(训练数据)对其进行微调来捕获特定领域的语义/知识。然后,使用BiLSTM层来考虑多条句子上下文信息,以获得更好的句子表示。接着,考虑到并非所有句子对每一个属性提取器都有用,本发明使用注意力机制为不同的属性提取器选择最重要的实例,并相应地减少其它实例所带来的噪声。最后,在输出层使用多任务学习机制,共同学习相关任务以同时解决多个多类问题任务,从而获得更好的结果并减少过拟合的风险。同时,还对每个任务的损失贡献做出了不同重要性的区分。
技术领域
本发明涉及一种基于多任务学习的肠癌诊断电子病历属性值抽取方法,特别是针对肠癌电子病历进行属性值抽取,完成后结构化任务,属于信息技术领域。
背景技术
伴随着信息技术的迅速发展,给医院的信息化建设带来了技术支持,使得许多医院已经着手于医院信息系统(hospital Information System,HIS)的建设。我国人口众多,每个时间点都发生着不同大小的医疗事件,由此产生了海量的医疗数据。其中,电子病历(EMR)数据中蕴含着大量患者的疾病信息和医疗知识,受到了科研工作者的广泛关注。
电子病历(EMR)数据是患者就诊过程中产生并被记录的临床资源,主要是由医生、护士等医疗工作人员通过填写医院信息系统表单而产生的文字、图形、图表、符号等数字化信息。电子病历系统相较于传统的纸质病历,它有效地提高了医生的工作质量和工作效率,减少了医疗错误,降低了医疗成本,规范了医疗行为和过程管理。但是,海量的电子病历数据是医学领域的宝贵财富,目前仅是将这些信息存储和管理起来,没有进行有效地分析和挖掘其潜在的医学用途,不能为临床医疗决策提供支持。
伴随着计算机硬件、大数据和人工智能的发展,计算机算法被不断提出和更新,已经能够精准的从海量数据中挖掘出其潜在的有价值的信息,从而帮助提升医院的整体医疗质量,加快医院信息化建设的步伐。但是,想要充分利用电子病历中的宝贵信息就必须先将其非结构化数据进行抽取成结构化数据,例如医生对患者病情的描述信息、医生给患者提供的治疗方案、用药记录等等。其中,数据挖掘和信息处理的最有效的手段是自然语言处理中文本分类和序列标注方法。我们需要充分利用这些方法,将电子病历数据中有效的信息抽取出来,帮助医疗科研人员进行二次利用,降低科研人员的工作难度和复杂程度,提高数据挖掘的效率和质量,推进医学领域的信息化建设。同时,对电子病历数据进行分析挖掘,发现病历潜在的医学知识,对疾病做出准确地趋势分析。
近年来,由于自然语言处理(Natural Language Processing,NLP)和深度学习(Deep Learning)拥有自动提取特征、构建复杂模型以及处理图像的能力,具有良好的泛化能力,被广泛地应用在各个领域中。这种自动提取特征的能力,非常适合用于处理医学数据分析所面临的问题,引起了医学领域研究者的思考,如何有效地将这些技术应用在电子病历数据的挖掘中。电子病历数据里面包含了患者从入院到出院的所有信息,包括患者的基本信息、住院时间、病情描述、手术记录、用药记录、出院时间等。如果通过自然语言处理技术将这些信息进行有效地利用,那么对于整个医院的信息化建设会有很大的提升。其中,文本数据是电子病历中最重要的部分之一,处理好文本数据是要想有效的利用电子病历中的宝贵信息的必然选择。因此,电子病历后结构化的研究成为了挖掘电子病历潜在信息的前提。
面对目前这种现状,学者们进行了多次尝试,提出了多种解决办法。目前为止,对电子病历进行后结构化操作存在两种方法,分别是结构化数据输入(Structured DataEntry,SDE)和自然语言处理(Natural Language Processing,NLP)[1]。下面介绍五种目前国内外正在使用或研究中的电子病历后结构化方法[2]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010429765.2/2.html,转载请声明来源钻瓜专利网。