[发明专利]一种基于多任务学习的肠癌诊断电子病历属性值抽取方法有效
申请号: | 202010429765.2 | 申请日: | 2020-05-20 |
公开(公告)号: | CN111666762B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 杜明;周军锋;徐波;刘国华;左彦飞;庞敏敏;张弘;王文坤;王璿 | 申请(专利权)人: | 东华大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G16H10/60;G06N20/20;G06N3/0442;G06N3/045 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 徐俊 |
地址: | 201600 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 肠癌 诊断 电子 病历 属性 抽取 方法 | ||
1.一种基于多任务学习的肠癌诊断电子病历属性值抽取方法,其特征在于,包括以下步骤:
步骤一、对于每个实例使用预训练的词嵌入来初始化神经网络模型中的参数:对于每个癌症标本e∈E,E为癌症标本数据集,首先将其文本切成句子或段se,然后将其作为癌症样本的一个实例;
步骤二、使用训练数据对步骤一中所述实例进行微调来捕获特定领域的语义或知识;
步骤三、使用BiLSTM层来考虑多条句子上下文信息,以获得更好的句子表示:上下文信息分别传送到BiLSTM的前向序列和后向序列中,对于每个句子sei,使用隐藏的向量hi表示它:
hi=[hi,1,hi,2,…,hi,j,…,hi,w] (1)
其中hi,j是句子sei的第j个单词的隐藏向量表示,将前向LSTM表示和后向LSTM表示通过非线性变换连接起来;前向LSTM表示带有文本的标准序列,后向LSTM表示带有相反的序列:
其中,为前向LSTM表示,为后向LSTM表示,σ()表示非线性变换;
步骤四、使用注意力机制为不同的属性提取器选择最重要的实例,并相应地减少其它实例所带来的噪声:使用HAN模型提出的注意力机制来表示所有实例h,其定义如下:
h=∑iαihi (3)
其中hi是第i个实例,而αi是hi实例的权重,定义如下:
mi=tanh(wshi+bs) (5)其中,ms和mi是实例或句子级别的上下文向量,ws和bs是一个单层的感知机参数用于得到mi的隐含表示,这些参数均于训练过程中随机初始化和联合学习;miT表示mi的转置;
步骤五、在输出层使用多任务学习机制,共同学习相关任务以同时解决多个多类问题任务,从而获得更好的结果并减少过拟合的风险:所有实例h被输送到不同的输出层;同时,使用softmax函数获得多个分类结果,
Pc=softmax(wch+bc) (6)
其中Pc是任务c的预测概率,wc是权重参数,bc是偏差矢量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010429765.2/1.html,转载请声明来源钻瓜专利网。