[发明专利]一种跨病种的小样本临床医疗文本后结构化处理方法在审

专利信息
申请号: 202011567629.6 申请日: 2020-12-26
公开(公告)号: CN112685561A 公开(公告)日: 2021-04-20
发明(设计)人: 刘翔 申请(专利权)人: 广州知汇云科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04
代理公司: 汕头兴邦华腾专利代理事务所(特殊普通合伙) 44547 代理人: 张树峰;梁凤德
地址: 510000 广东省广州市南沙区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 跨病种 样本 临床 医疗 文本 结构 处理 方法
【权利要求书】:

1.一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,包括以下步骤:

获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,对待标注信息进行标注,得到标注后的文本信息;标注后的所述文本信息包括标准问题列表、目标问题列表和小样本标注语料;

在pytorch神经网络框架下,利用元学习和LSTM模型训练是否型问题的信息抽取模型,得到元模型;

利用标注后的文本信息对元模型进行训练,得到小样本病历的文本后结构化模型;

利用文本后结构化模型识别的A病种的文本信息。

2.根据权利要求1所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,包括以下步骤:

分别获取A病种的小样本文本信息和B病种的大样本文本信息;

将A病种的小样本文本信息和B病种的大样本文本信息的符号标准化,并按段落、句子、文本类型进行切分,得到切分后的文本数据;

将切分后的文本数据转换成二进制,得到二进制数据;

结合BERT模型,并按A病种、B病种依次利用二进制数据进行逐个训练,得到BERT语言模型;

利用tensorflow框架求得A病种的小样本文本信息和B病种的大样本文本信息的困惑度,并滤除大于预设阈值的句子,构成差异集合;

利用BERT语言模型求得差异集合中任一句子的局向量;

采用层次聚类算法对局向量进行聚类,得到待标注信息。

3.根据权利要求1或2所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述LSTM模型采用依次连接的输入门、遗忘门和输出门。

4.根据权利要求3所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述遗忘门满足以下关系:

ft=σ(Wf·[ht-1,xt]+bf)

其中,ht-1表示上一细胞的输出,xt表示当前细胞的输出,σ表示激活函数,Wf表示遗忘门的权重矩阵,bf表示遗忘门的偏置项

5.根据权利要求3所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述输入门满足以下关系:

其中,ft为遗忘门的输出,即模型会从细胞状态中丢弃的信息,σ表示激活函数,Ct-1表示旧的细胞状态,it为输入门门控,即控制当前时刻需要保留哪些之前学到的东西,表示当前时刻学到的东西;

所述it的表达式为:

it=σ(Wi·[ht-1,xt]+bi)

其中,σ表示激活函数,Wi表示输入门门控的权重矩阵,ht-1表示上一细胞的输出,xt表示当前细胞的输出,bi表示输入门门控的偏置项;

所述的表达式为:

其中,tanh表示激活函数,Wc表示学习新知识时的权重矩阵,ht-1表示上一细胞的输出,xt表示当前细胞的输出,bc表示学习新知识时的偏置项。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州知汇云科技有限公司,未经广州知汇云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011567629.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top