[发明专利]一种基于多任务学习的肠癌诊断电子病历属性值抽取方法有效

申请号：	202010429765.2	申请日：	2020-05-20
公开（公告）号：	CN111666762B	公开（公告）日：	2023-06-20
发明（设计）人：	杜明;周军锋;徐波;刘国华;左彦飞;庞敏敏;张弘;王文坤;王璿	申请（专利权）人：	东华大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/211;G16H10/60;G06N20/20;G06N3/0442;G06N3/045
代理公司：	上海申汇专利代理有限公司 31001	代理人：	徐俊
地址：	201600 上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于任务学习肠癌诊断电子病历属性抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多任务学习的肠癌诊断电子病历属性值抽取方法，其特征在于，包括以下步骤：

步骤一、对于每个实例使用预训练的词嵌入来初始化神经网络模型中的参数：对于每个癌症标本e∈E，E为癌症标本数据集，首先将其文本切成句子或段s_e，然后将其作为癌症样本的一个实例；

步骤二、使用训练数据对步骤一中所述实例进行微调来捕获特定领域的语义或知识；

步骤三、使用BiLSTM层来考虑多条句子上下文信息，以获得更好的句子表示：上下文信息分别传送到BiLSTM的前向序列和后向序列中，对于每个句子s_ei，使用隐藏的向量h_i表示它：

h_i＝[h_i,1,h_i,2,…,h_i,j,…,h_i,w] (1)

其中h_i,j是句子s_ei的第j个单词的隐藏向量表示，将前向LSTM表示和后向LSTM表示通过非线性变换连接起来；前向LSTM表示带有文本的标准序列，后向LSTM表示带有相反的序列：

其中，为前向LSTM表示，为后向LSTM表示，σ()表示非线性变换；

步骤四、使用注意力机制为不同的属性提取器选择最重要的实例，并相应地减少其它实例所带来的噪声：使用HAN模型提出的注意力机制来表示所有实例h，其定义如下：

h＝∑_iα_ih_i (3)

其中h_i是第i个实例，而α_i是h_i实例的权重，定义如下：

m_i＝tanh(w_sh_i+b_s) (5)其中，m_s和m_i是实例或句子级别的上下文向量，w_s和b_s是一个单层的感知机参数用于得到m_i的隐含表示，这些参数均于训练过程中随机初始化和联合学习；m_i^T表示m_i的转置；

步骤五、在输出层使用多任务学习机制，共同学习相关任务以同时解决多个多类问题任务，从而获得更好的结果并减少过拟合的风险：所有实例h被输送到不同的输出层；同时，使用softmax函数获得多个分类结果，

P_c＝softmax(w_ch+b_c) (6)

其中P_c是任务c的预测概率，w_c是权重参数，b_c是偏差矢量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东华大学，未经东华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010429765.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载