[发明专利]一种基于多任务学习的肠癌诊断电子病历属性值抽取方法有效

专利信息
申请号: 202010429765.2 申请日: 2020-05-20
公开(公告)号: CN111666762B 公开(公告)日: 2023-06-20
发明(设计)人: 杜明;周军锋;徐波;刘国华;左彦飞;庞敏敏;张弘;王文坤;王璿 申请(专利权)人: 东华大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/211;G16H10/60;G06N20/20;G06N3/0442;G06N3/045
代理公司: 上海申汇专利代理有限公司 31001 代理人: 徐俊
地址: 201600 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 任务 学习 肠癌 诊断 电子 病历 属性 抽取 方法
【权利要求书】:

1.一种基于多任务学习的肠癌诊断电子病历属性值抽取方法,其特征在于,包括以下步骤:

步骤一、对于每个实例使用预训练的词嵌入来初始化神经网络模型中的参数:对于每个癌症标本e∈E,E为癌症标本数据集,首先将其文本切成句子或段se,然后将其作为癌症样本的一个实例;

步骤二、使用训练数据对步骤一中所述实例进行微调来捕获特定领域的语义或知识;

步骤三、使用BiLSTM层来考虑多条句子上下文信息,以获得更好的句子表示:上下文信息分别传送到BiLSTM的前向序列和后向序列中,对于每个句子sei,使用隐藏的向量hi表示它:

hi=[hi,1,hi,2,…,hi,j,…,hi,w]                       (1)

其中hi,j是句子sei的第j个单词的隐藏向量表示,将前向LSTM表示和后向LSTM表示通过非线性变换连接起来;前向LSTM表示带有文本的标准序列,后向LSTM表示带有相反的序列:

其中,为前向LSTM表示,为后向LSTM表示,σ()表示非线性变换;

步骤四、使用注意力机制为不同的属性提取器选择最重要的实例,并相应地减少其它实例所带来的噪声:使用HAN模型提出的注意力机制来表示所有实例h,其定义如下:

h=∑iαihi                                (3)

其中hi是第i个实例,而αi是hi实例的权重,定义如下:

mi=tanh(wshi+bs)                           (5)其中,ms和mi是实例或句子级别的上下文向量,ws和bs是一个单层的感知机参数用于得到mi的隐含表示,这些参数均于训练过程中随机初始化和联合学习;miT表示mi的转置;

步骤五、在输出层使用多任务学习机制,共同学习相关任务以同时解决多个多类问题任务,从而获得更好的结果并减少过拟合的风险:所有实例h被输送到不同的输出层;同时,使用softmax函数获得多个分类结果,

Pc=softmax(wch+bc)                         (6)

其中Pc是任务c的预测概率,wc是权重参数,bc是偏差矢量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010429765.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top